Imikolov¶
- class paddle.text. Imikolov ( data_file=None, data_type='NGRAM', window_size=- 1, mode='train', min_word_freq=50, download=True ) [源代码] ¶
该类是对 imikolov 测试数据集的实现。
参数¶
data_file (str) - 保存数据的路径,如果参数 :attr:`download`设置为 True,可设置为 None。默认为 None。
data_type (str) - 'NGRAM'或'SEQ'。默认为'NGRAM'。
window_size (int) - 'NGRAM'数据滑动窗口的大小。默认为-1。
mode (str) - 'train' 'test' mode. Default 'train'。
min_word_freq (int) - 构建词典的最小词频。默认为 50。
download (bool) - 如果 :attr:`data_file`未设置,是否自动下载数据集。默认为 True。
返回¶
Dataset
,imikolov 数据集实例。
代码示例¶
>>> import paddle
>>> from paddle.text.datasets import Imikolov
>>> class SimpleNet(paddle.nn.Layer):
... def __init__(self):
... super().__init__()
...
... def forward(self, src, trg):
... return paddle.sum(src), paddle.sum(trg)
>>> imikolov = Imikolov(mode='train', data_type='SEQ', window_size=2)
>>> for i in range(10):
... src, trg = imikolov[i]
... src = paddle.to_tensor(src)
... trg = paddle.to_tensor(trg)
...
... model = SimpleNet()
... src, trg = model(src, trg)
... print(src.item(), trg.item())
2076 2075
2076 2075
675 674
4 3
464 463
2076 2075
865 864
2076 2075
2076 2075
1793 1792