7.自然语言处理预训练模型数据准备-自然语言处理的数据集及格式.pptxVIP

下载本文档

10
0
约5.29千字
约 23页
2024-02-29 发布于四川
举报
版权申诉

7.自然语言处理预训练模型数据准备-自然语言处理的数据集及格式.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

自然语言处理预训练模型数据准备自然语言处理模型应用课堂导入你知道自然语言处理的主要研究方向是什么吗？信息抽取文本挖掘语音合成文本生成文本分类语音识别问答系统机器翻译舆情分析项目目标（1）了解常用的自然语言处理的数据集及格式。（2）掌握文本分类数据处理方法。（3）掌握文本分类数据集加载的方法。项目描述自然语言处理是研究计算机处理人类语言的一门技术，是指让机器人理解并解释人类表达、说话方式的能力，主要研究方向包括：信息抽取、文本生成、问答系统、对话系统、文本挖掘、语音识别、语音合成、舆情分析、机器翻译等。在机器学习中，最为基础的一项工作就是数据准备。如何将大量的数据通过处理缺失数据、处理重复数据和处理异常数据等操作，得到数据处理和机器学习所需的有效数据是一项非常重要的工作。自然语言处理的数据集及格式自然语言处理的数据集通常有文本类、语音类和图像类，其中文本类的数据集格式主要为txt纯文本格式、Json格式以及表格形式等，接下来将对部分数据集及其格式进行解释说明。DuEE数据集BSTC数据集weibo_senti_100k数据集八类情感分类数据集自然语言处理的数据集及格式1DuEE数据集DuEE是用于事件提取的大规模通用中文数据集。它由17000个句子组成，其中包含20000个事件，共65个事件类型和相应的人工注释参数。根据百度的热门搜索板选择和确定事件类型。65个事件类型不仅包括传统事件提取评估中的常见事件类型，例如“婚姻，辞职和地震”，还包括具有鲜明的时间特征的事件类型。数据集包含约17000个句子，其中包括约12000个句子在训练集中，1500个在验证集中和3500个在测试集中。DuEE数据集中采用Json格式表示，示例数据格式如图：自然语言处理的数据集及格式2BSTC数据集BSTC（BaiduSpeechTranslationCorpus，百度语音翻译语料库）是用于自动同声传译的大规模数据集。BSTC1.0版包含50个小时的真实演讲，包括三个部分，音频文件，描述文件和补充文件。语料库可用于构建自动同声传译系统。语料库是从中国普通话的谈话和报道中收集的，包括科学，技术，文化，经济等。BSTC数据集中的描述文件采用Json格式表示，示例数据格式如下：自然语言处理的数据集及格式2BSTC数据集自然语言处理的数据集及格式2BSTC数据集另外补充文件包括talks.txt和speakers.txt，两个文件都采用txt格式表示，示例数据格式表示如下：talks.txtspeakers.txt自然语言处理的数据集及格式3weibo_senti_100k数据集weibo_senti_100k数据集的数据来源于新浪微博的各种评论，共10万多条数据。数据格式为：微博内容”review“，带情感标注”label“，1表示正向评论，0表示负向评论，正负向评论各5万条数据。weibo_senti_100k数据集采用表格格式表示，示例数据格式如下：labelreview620500太过分了@Rexzhenghao//@Janie_Zhang:最近负面新闻越来越多呀...682630希望你?得好?我本＂??史＂[晕][哈哈]@Pete三姑父420211[给力]感谢所有支持的芝麻！[爱你]777712013最后一天，在新加坡开心度过，向所有的朋友们问声：新年快乐！2014年，我们会更好[调...1003990大中午出门办事找错路，曝晒中。要多杯具有多杯具。[泪][泪][汗]247981[抱抱]吉祥书8.8折优惠自然语言处理的数据集及格式4八类情感分类数据集八类情感分类数据集的数据来源主要是微博上的一些评论内容，共26462条数据。数据集文件存放在实训平台”data“目录下，文件名为”moods_classify8_unprocessed.xlsx“，包含缺失值、重复值和异常值。数据标签如表格所示：labelsplit0.0none1.0like2.0disgust3.0happiness4.0sadness5.0anger6.0surprise7.0fear自然语言处理的数据集及格式4八类情感分类数据集情感分类数据集目录在本次情感分类数据准备中，实训平台的“data”目录下只存放了“moods_classify8_unprocessed.xlsx”数据集文件，为了使数据能够输入到模型当中，需要将数据集目录生成为以下格式，目录中包含训练集数据文件train.txt和测试集数据文件test.txt，测试数据集用于测试和验证。但在实际项目中，可以根据具体需求，额外再生成验证集数据文件用于验证。自然语言处理的数据集及格式4八类情感分类数据集情感分类数据集文件格式和内容生成的训练集、验证集和测试集的数据文件的编码格式建议为ut