- 1、本文档共29页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文本数据处理
7.1文本数据
•互联网发展形成的网络数据呈现爆发性增长
•数据80%以文本形式存放
•如何从海量文档中快速发现并利用所需的知识?
•成为人工智能的热点研究应用方向
文本处理常见任务(1)
•任务1:文本分类•任务2:信息检索
•目标•目标
•按照一定的分类体系,将文档判别•将信息(这里指代文本)按一定的
为预定的若干类中某一类或某几类方式组织起来,根据用户的需求将
•典型应用相关信息查找出来
•垃圾邮件/短信分类•典型应用
•新闻分类•搜索引擎(谷歌、百度)
•网页分类
•情感分析
文本处理常见任务(2)
•任务3:信息抽取•任务4:自动问答
•目标•目标
•将文本中包含的结构化或非结构•用准确、简洁的自然语言回答用
化的信息抽取出来,组织成类似户以文本形式提出的问题
表格的形式•典型应用
•典型应用•问答机器人
•命名实体识别
•关系抽取
创始人
任正非创办了华为公司
人物公司
文本处理常见任务(3)
•任务5:机器翻译
•目标
•一种自然语言文本自动转换为另一种自然语言文本
•典型应用
•翻译软件
•谷歌翻译
•百度翻译
•有道翻译
•任务6:自动摘要
•目标
•从一份或多份文本中提取出来部分文字,它包含了原文本中的重要信息,
且长度不超过或远少于原文本的一半
•典型应用
•搜索引擎
文本处理的基本步骤
文本采集文本预处理
文本分词去停用词
文本提取
与整理
词性标注样本标注
序列建模分析特征提取与特征选择
序列分类序列标注选择特征
序列-序列学习……特征提取
7.2中文文本处理
•英文文本处理工具相对比较成熟
•常用:Python的NLTK、工业级Spacy等
•提供多
您可能关注的文档
- 《电子商务基础与实务》(双色2版)-习题答案 白东蕊.docx
- 《电子商务基础与实务》(双色2版)-习题答案 白东蕊.pdf
- 数据科学技术与应用——基于Python实现(第2版)课件 1-数据科学基础.pdf
- 数据科学技术与应用——基于Python实现(第2版)课件 2-多维数据与计算.pdf
- 数据科学技术与应用——基于Python实现(第2版)课件 3-数据汇总和统计.pdf
- 数据科学技术与应用——基于Python实现(第2版)课件 4-数据可视化.pdf
- 数据科学技术与应用——基于Python实现(第2版)课件 5-机器学习建模分析.pdf
- 数据科学技术与应用——基于Python实现(第2版)课件 6-神经网络与深度学习.pdf
- 数据科学技术与应用——基于Python实现(第2版)课件 8-图像数据处理.pdf
- 数据科学技术与应用——基于Python实现(第2版)课件 9-时序数据和语音处理.pdf
文档评论(0)