网站大量收购闲置独家精品文档,联系QQ:2885784924

数据科学技术与应用——基于Python实现(第2版)课件 7-文本数据处理.pdf

数据科学技术与应用——基于Python实现(第2版)课件 7-文本数据处理.pdf

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

文本数据处理

7.1文本数据

•互联网发展形成的网络数据呈现爆发性增长

•数据80%以文本形式存放

•如何从海量文档中快速发现并利用所需的知识?

•成为人工智能的热点研究应用方向

文本处理常见任务(1)

•任务1:文本分类•任务2:信息检索

•目标•目标

•按照一定的分类体系,将文档判别•将信息(这里指代文本)按一定的

为预定的若干类中某一类或某几类方式组织起来,根据用户的需求将

•典型应用相关信息查找出来

•垃圾邮件/短信分类•典型应用

•新闻分类•搜索引擎(谷歌、百度)

•网页分类

•情感分析

文本处理常见任务(2)

•任务3:信息抽取•任务4:自动问答

•目标•目标

•将文本中包含的结构化或非结构•用准确、简洁的自然语言回答用

化的信息抽取出来,组织成类似户以文本形式提出的问题

表格的形式•典型应用

•典型应用•问答机器人

•命名实体识别

•关系抽取

创始人

任正非创办了华为公司

人物公司

文本处理常见任务(3)

•任务5:机器翻译

•目标

•一种自然语言文本自动转换为另一种自然语言文本

•典型应用

•翻译软件

•谷歌翻译

•百度翻译

•有道翻译

•任务6:自动摘要

•目标

•从一份或多份文本中提取出来部分文字,它包含了原文本中的重要信息,

且长度不超过或远少于原文本的一半

•典型应用

•搜索引擎

文本处理的基本步骤

文本采集文本预处理

文本分词去停用词

文本提取

与整理

词性标注样本标注

序列建模分析特征提取与特征选择

序列分类序列标注选择特征

序列-序列学习……特征提取

7.2中文文本处理

•英文文本处理工具相对比较成熟

•常用:Python的NLTK、工业级Spacy等

•提供多

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档