TESS

class paddle.audio.datasets. TESS ( mode: str = 'train', n_folds=5, split=1, feat_type='raw', archive=None, **kwargs ) [源代码]

TESS 数据集的实现。

参数

  • mode (str,可选) - 'train''dev' 模式两者之一,默认值为 'train'

  • n_folds (int,可选) - 默认是 5,指定把数据集分为的文件夹数目, 1 个文件夹是 dev,其他是 train。

  • split (int,可选) - 默认是 1,指定 dev 的文件夹。

  • feat_type (str,可选) - 默认是 raw,raw 是原始语音,支持 mfcc,spectrogram,melspectrogram,logmelspectrogram。指定从音频提取的语音特征。

  • archive (dict,可选) - 默认是 None,类中已经设置默认 archive,指定数据集的下载链接和 md5 值。

返回

Dataset,TESS 数据集实例。

代码示例

import paddle

mode = 'dev'
tess_dataset = paddle.audio.datasets.TESS(mode=mode,
                                        feat_type='raw')
for idx in range(5):
    audio, label = tess_dataset[idx]
    # do something with audio, label
    print(audio.shape, label)
    # [audio_data_length] , label_id

tess_dataset = paddle.audio.datasets.TESS(mode=mode,
                                        feat_type='mfcc',
                                        n_mfcc=40)
for idx in range(5):
    audio, label = tess_dataset[idx]
    # do something with mfcc feature, label
    print(audio.shape, label)
    # [feature_dim, num_frames] , label_id