网站大量收购独家精品文档,联系QQ:2885784924

信息技术课件人工智能识文断字理解文本.pptx

信息技术课件人工智能识文断字理解文本.pptx

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

识文断字:理解文本《人工智能基础》(高中版)第七章人工智能中学2019年6月6日

文本数据建立传统图书信息服务的三大要素图书、报刊(知识的重要化身)图书馆(知识的殿堂)图书管理员(知识的保护者与传播的代理人)网络的世界是一个虚拟化的电子图书馆书有了新的形式(网页、应用)图书馆有了新的平台(网络服务器)图书管理员有了新的竞争者(搜索引擎)导言

我们每天都会遇到各种各样的文本数据,但大部分是非结构化的,并不是全部都是有价值的。潜在语义分析(LSA)计算机从海量的文本数据中心自动发掘出潜在的主题,进而完成对文本内容的概括与提炼。借助导言

01任务的特点02文本的特征03高屋建瓴:发掘文本中潜在的主题04投其所好:给予主题的文本搜索与推荐目录

01任务的特点无监督学习算法语料库文档主题日常获得的文本数据(无任何主题标记)消息本体人工标注(海量规模,代价高昂)K均值算法(对文本数据进行聚类,但类别单一)潜在语义分析技术(可分析出多个潜在的主题)/一整年的报纸//报纸上的一篇文章//政治、经济、教育、科技、民生等/例如教育主题政治主题

02文本的特征词袋模型BoW(bag-of-wordsmodel)文档装有若干词语的袋子(二元组)铭铭:1铭铭喜欢打篮球,也喜欢打乒乓球。喜欢:2打:2篮球:1也:1乒乓球:1词语:出现次数词典1(所有词汇均出现)序号123456词语铭铭喜欢打篮球也乒乓球特征向量次计数向量n=(1,2,2,1,1,1)词频向量f=(1/8,1/4,1/4,1/8,1/8,1/8)词典2(只包含部分词汇)序号1234词语铭铭喜欢篮球乒乓球次计数向量n=(1,2,1,1)词频向量f=(1/5,2/5,1/5,1/5)例1

02文本的特征铭铭喜欢打篮球,也喜欢打乒乓球。例2文档1铭铭去公园放风筝。文档2铭铭的学校开设了人工智能课程。文档3语料库词典序号1234词语铭铭喜欢打篮球序号5678词语也乒乓球去公园序号9101112词语放风筝的学校序语开设了人工智能课程统计文档中出现各词语的次数特征向量(次计数向量)铭铭喜欢打篮球也……课程文档112211……0文档210000……0文档310000……1n1=(1,2,1,1,…,0)n2=(1,0,0,0,…,0)n3=(1,0,0,0,…,1)

02文本的特征词袋模型应用的基本流程中文分词文档词袋删除停止词与低频词词典统计词频率计算词频率—逆文档频率词频特征词频率—逆文档频率特征英文:以空格和标点符号为依据中文:需借助额外的分词技术(基于匹配与统计学方法)停止词:不携带任何主体信息的高频词(如:的、也、了)低频词:不常用的专有名词词频率—逆文档频率反映一个词语对于一篇文档的重要性逆文档频率:文档频率的负对数修正每个词语在每篇文档中的重要性(仅词频率高,该词的重要性不一定高)

03高屋建瓴:发掘文本中潜在的主题一篇文档通常饱含若干个主题,每个主题对应一个词频向量。比重不同潜在主题:T个每个主题对应一个词频向量:tj=(xj1,xj2,…,xjV)1≤j≤T词典大小:V各主题的比重:w1,w2,…,wT文档的词频向量:d=(y1,y2,…,yT)d=w1t1+w2t2+…+wTtV

03高屋建瓴:发掘文本中潜在的主题d=w1t1+w2t2+…+wTtVd=wTD=WT语料库中有D篇文档文档词频:D主题比重:W主题词频:T矩阵简化矩阵简化矩阵乘法示意图

03高屋建瓴:发掘文本中潜在的主题D=WT文档词频(已知:通过统计语料库得到)语料库中所有潜在的主题每一篇文档中各个主题的比重主题模型仅仅通过加权平均建立语料库要簮之间的关系需通过非负矩阵分解法,使公式左右两边尽量接近,得解

04投其所好:给予主题的文本搜索与推荐传统搜索引擎一词多义问题近义词问题主题模型+潜在语义分析在搜索过程中对文档的主题加以考察,克服关键词的局限例如:使用关键词“水分”进行搜索,指定“科学”这以主题,过滤和“虚假”相关的文章信息。实现文章的个性化推荐根据阅览偏好调整相关主题文档的比重

感谢观看小结文本数据同时具有无监督与多主题或多类别的特点,而主题模型与潜在语义分析技术正是针对这两个特点而提出的一类重要的无监督机器学习方法。

文档评论(0)

专注于各类教育类资料、资格考试类资料、实用模板类资料、行业资料等十余年。

1亿VIP精品文档

相关文档