Conll05st¶
- class paddle.text. Conll05st ( data_file=None, word_dict_file=None, verb_dict_file=None, target_dict_file=None, emb_file=None, download=True ) [源代码] ¶
该类是对 Conll05st 测试数据集的实现。
注解
只支持自动下载公共的 Conll05st 测试数据集。
参数¶
data_file (str) - 保存数据的路径,如果参数 download 设置为 True,可设置为 None。默认为 None。
word_dict_file (str) - 保存词典的路径。如果参数 download 设置为 True,可设置为 None。默认为 None。
verb_dict_file (str) - 保存动词词典的路径。如果参数 download 设置为 True,可设置为 None。默认为 None。
target_dict_file (str) - 保存目标词典的路径如果参数 download 设置为 True,可设置为 None。默认为 None。
emb_file (str) - 保存词嵌入词典的文件。只有在 get_embedding 能被设置为 None 且 download 为 True 时使用。
download (bool) - 如果 data_file 、 word_dict_file 、 verb_dict_file 和 target_dict_file 未设置,是否下载数据集。默认为 True。
返回值¶
Dataset
,conll05st 数据集实例。
代码示例¶
>>> import paddle
>>> from paddle.text.datasets import Conll05st
>>> class SimpleNet(paddle.nn.Layer):
... def __init__(self):
... super().__init__()
...
... def forward(self, pred_idx, mark, label):
... return paddle.sum(pred_idx), paddle.sum(mark), paddle.sum(label)
>>> conll05st = Conll05st()
>>> for i in range(10):
... pred_idx, mark, label= conll05st[i][-3:]
... pred_idx = paddle.to_tensor(pred_idx)
... mark = paddle.to_tensor(mark)
... label = paddle.to_tensor(label)
...
... model = SimpleNet()
... pred_idx, mark, label= model(pred_idx, mark, label)
... print(pred_idx.item(), mark.item(), label.item())
65840 5 1991
92560 5 3686
99120 5 457
121960 5 3945
4774 5 2378
14973 5 1938
36921 5 1090
26908 5 2329
62965 5 2968
97755 5 2674