Conll05st

class paddle.text. Conll05st ( data_file=None, word_dict_file=None, verb_dict_file=None, target_dict_file=None, emb_file=None, download=True ) [源代码]

该类是对 Conll05st 测试数据集的实现。

注解

只支持自动下载公共的 Conll05st 测试数据集。

参数

  • data_file (str) - 保存数据的路径,如果参数 download 设置为 True,可设置为 None。默认为 None。

  • word_dict_file (str) - 保存词典的路径。如果参数 download 设置为 True,可设置为 None。默认为 None。

  • verb_dict_file (str) - 保存动词词典的路径。如果参数 download 设置为 True,可设置为 None。默认为 None。

  • target_dict_file (str) - 保存目标词典的路径如果参数 download 设置为 True,可设置为 None。默认为 None。

  • emb_file (str) - 保存词嵌入词典的文件。只有在 get_embedding 能被设置为 None 且 download 为 True 时使用。

  • download (bool) - 如果 data_fileword_dict_fileverb_dict_filetarget_dict_file 未设置,是否下载数据集。默认为 True。

返回值

Dataset,conll05st 数据集实例。

代码示例

>>> import paddle
>>> from paddle.text.datasets import Conll05st

>>> class SimpleNet(paddle.nn.Layer):
...     def __init__(self):
...         super().__init__()
...
...     def forward(self, pred_idx, mark, label):
...         return paddle.sum(pred_idx), paddle.sum(mark), paddle.sum(label)


>>> conll05st = Conll05st()

>>> for i in range(10):
...     pred_idx, mark, label= conll05st[i][-3:]
...     pred_idx = paddle.to_tensor(pred_idx)
...     mark = paddle.to_tensor(mark)
...     label = paddle.to_tensor(label)
...
...     model = SimpleNet()
...     pred_idx, mark, label= model(pred_idx, mark, label)
...     print(pred_idx.item(), mark.item(), label.item())
65840 5 1991
92560 5 3686
99120 5 457
121960 5 3945
4774 5 2378
14973 5 1938
36921 5 1090
26908 5 2329
62965 5 2968
97755 5 2674