ASRT语音识别系统 文档

数据集
  • Last Edit by AI柠檬
  • 2020-07-21 20:38:52
## 数据集 * **清华大学THCHS30中文语音数据集** * data_thchs30.tgz [OpenSLR国内镜像](https://link.ailemon.me/?target=http://openslr.magicdatatech.com/resources/18/data_thchs30.tgz) [OpenSLR国外镜像](https://link.ailemon.me/?target=http://www.openslr.org/resources/18/data_thchs30.tgz) * test-noise.tgz [OpenSLR国内镜像](https://link.ailemon.me/?target=http://openslr.magicdatatech.com/resources/18/test-noise.tgz) [OpenSLR国外镜像](https://link.ailemon.me/?target=http://www.openslr.org/resources/18/test-noise.tgz) * resource.tgz [OpenSLR国内镜像](https://link.ailemon.me/?target=http://openslr.magicdatatech.com/resources/18/resource.tgz) [OpenSLR国外镜像](https://link.ailemon.me/?target=http://www.openslr.org/resources/18/resource.tgz) * **Free ST Chinese Mandarin Corpus** * ST-CMDS-20170001_1-OS.tar.gz [OpenSLR国内镜像](https://link.ailemon.me/?target=http://openslr.magicdatatech.com/resources/38/ST-CMDS-20170001_1-OS.tar.gz) [OpenSLR国外镜像](https://link.ailemon.me/?target=http://www.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz) * **AIShell 开源版数据集** * data_aishell.tgz [OpenSLR国内镜像](https://link.ailemon.me/?target=http://openslr.magicdatatech.com/resources/33/data_aishell.tgz) [OpenSLR国外镜像](https://link.ailemon.me/?target=http://www.openslr.org/resources/33/data_aishell.tgz) 注:数据集解压方法 ``` $ tar xzf data_aishell.tgz $ cd data_aishell/wav $ for tar in *.tar.gz; do tar xvf $tar; done ``` * **Primewords Chinese Corpus Set 1** * primewords_md_2018_set1.tar.gz [OpenSLR国内镜像](https://link.ailemon.me/?target=http://openslr.magicdatatech.com/resources/47/primewords_md_2018_set1.tar.gz) [OpenSLR国外镜像](https://link.ailemon.me/?target=http://www.openslr.org/resources/47/primewords_md_2018_set1.tar.gz) * **aidatatang_200zh** aidatatang_200zh.tgz [OpenSLR国内镜像](https://link.ailemon.me/?target=http://openslr.magicdatatech.com/resources/62/aidatatang_200zh.tgz) [OpenSLR国外镜像](https://link.ailemon.me/?target=http://www.openslr.org/resources/62/aidatatang_200zh.tgz) * **MagicData** train_set.tar.gz [OpenSLR国内镜像](https://link.ailemon.me/?target=http://openslr.magicdatatech.com/resources/68/train_set.tar.gz) [OpenSLR国外镜像](https://link.ailemon.me/?target=http://www.openslr.org/resources/68/train_set.tar.gz) dev_set.tar.gz [OpenSLR国内镜像](https://link.ailemon.me/?target=http://openslr.magicdatatech.com/resources/68/dev_set.tar.gz) [OpenSLR国外镜像](https://link.ailemon.me/?target=http://www.openslr.org/resources/68/dev_set.tar.gz) test_set.tar.gz [OpenSLR国内镜像](https://link.ailemon.me/?target=http://openslr.magicdatatech.com/resources/68/test_set.tar.gz) [OpenSLR国外镜像](https://link.ailemon.me/?target=http://www.openslr.org/resources/68/test_set.tar.gz) metadata.tar.gz [OpenSLR国内镜像](https://link.ailemon.me/?target=http://openslr.magicdatatech.com/resources/68/metadata.tar.gz) [OpenSLR国外镜像](https://link.ailemon.me/?target=http://www.openslr.org/resources/68/metadata.tar.gz) 特别鸣谢!感谢前辈们的公开语音数据集 如果提供的数据集链接无法打开和下载,请点击该链接 [OpenSLR](https://link.ailemon.me/?target=http://www.openslr.org) . 注:在datalist/目录下的文件为整理好的数据集的列表和标签 通过git克隆仓库以后,需要将datalist目录下的文件全部拷贝到dataset目录下,也就是将其跟数据集放在一起。 其中,dataset目录可以是一个目录,也可以是指向数据集存放目录的软连接,但不建议使用硬连接。 ```shell $ cp -rf datalist/* dataset/ ``` 关于数据集文件的路径树,可以直接参考datalist目录下的*.lst和*.txt文件中的内容进行排放 下载后的文件解压,目录对应如下: ``` dataset/data_thchs30/train/*.wav dataset/data_thchs30/dev/*.wav dataset/data_thchs30/test/*.wav dataset/ST-CMDS-20170001_1-OS/*.wav ``` 对于thchs30数据集来说,直接按照解压后目录中的`train/` `dev/`和`test/`目录放置就可以,对于ST-CMDS数据集来说,解压后的目录直接放置在dataset/下即可,数据集的划分都由wav列表文件来决定。 ## 数据格式 ### 语音数据文件 wav格式 diff文件头 采样频率16 kHz, 采样位数16 bits, 256 samples, 2 bytes 长度 (是不是raw格式都可以,只要能够正确读取内容即可) ### 标签数据文件 参照`datalist/`目录下文件 ## 数据标注的修正 目前可知的可以继续提高准确率的一个方案就是纠正数据集标注错误,尤其是ST-CMDS里面关于syllable文件中拼音的错误,这里面有一定比例的错误标注,如果走过路过的各位有意愿尽自己的能力帮助纠正一些数据标注错误的,我将非常欢迎,可以通过提交Pull Request来纠正,并且将登上本仓库的贡献者名单。 样例:`不是: bu4 shi4 -> bu2 shi4` `一个:yi1 ge4 -> yi2 ge4` `了解:le5 jie3 -> liao3 jie3` 已订正部分: ST-CMDS train: 20170001P00001A 20170001P00001I 20170001P00002A At present, one solution that can continue to improve the accuracy rate is correcting data set labeling errors, especially the ST-CMDS error in the syllable file. There is a certain percentage of errors in the label. If you have see this and you have the will to help correct some of the data tagging mistakes by own ability, I will be very welcome. It can be corrected by submitting a Pull Request, and you will be on the list of contributors of this repo. Samples: `不是: bu4 shi4 -> bu2 shi4` `一个:yi1 ge4 -> yi2 ge4` `了解:le5 jie3 -> liao3 jie3` Corrected part: ST-CMDS train: 20170001P00001A 20170001P00001I 20170001P00002A