北邮徐蔚然教授信息工程导论课件——信息抽取与信息检索2015.pptxVIP

北邮徐蔚然教授信息工程导论课件——信息抽取与信息检索2015.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
北京邮电大学模式识别实验室 ; 信息时代的机遇和挑战 信息检索 信息抽取 机器学习 ; 信息时代的机遇和挑战 信息检索 信息抽取 机器学习 ;信息技术革命(第三次技术革命) 250 年前,发明蒸汽机 ? 工业革命 100 年前,电磁场理论,发现电子 ? 电气革命 50 年前, 发明计算机,信息数字化 ? 信息革命;生活方式的改变 送别、信件、娱乐 学习方法的改变 图书馆、互联网、MOOC 工作方式的改变 信息行业、SOHO 社会的改变 经济全球化 ;IBM PC机硬件 微软 软件 Netscape 浏览器 Yahoo 门户网站 Google/百度 搜索引擎 Twitter/新浪微博 微博 Facebook /腾讯 社交网络服务网站 … … ;从内容的传输到内容的处理 传输技术/网络技术的发展和成熟 内容处理的挑战 最有代表性的内容处理问题:语言文字 语言文字专门用来传递信息和承载知识 与人类的智能密不可分 大数据时代的技术瓶颈 互联网有我们需要的海量 信息和知识,但是我们找 不到它们。 ; 信息时代的机遇和挑战 信息检索 信息抽取 机器学习 ;;搜索引擎;;;四个应用例子的共同特征 给定需求(或者是对象),从信息库中找出最匹配的信息(或对象) ;信息检索 是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。 ;信息检索系统 给定:索引数据集合+用户查询请求 查找:相关的数据列表;;信息检索:信息检索中的关键问题和方法;爬取 Crawling 内容表示 Representation 数据索引 Indexing 相似度计算 Retrieval 系统评价 Evaluation ;目标 表示出文档的内容和语义,方便于信息的查找 考虑因素 准确表达文本的语义 全面覆盖文本全部内容 方便计算机处理 主要方法 向量空间模型(Vector Space Model) 词袋模型(Bag Of Words) :忽略文档的词语顺序和语法、句法等要素,仅将其看作是若干个词汇的集合。 TF(词频): 一个词在一篇文档中出现的次数 DF(文档频率):全部文档集合中包含该词的文档数 IDF: ID的倒数 ;信息检索: 文档和查询的内容表示;查询的内容表示 理想的查询:一篇文档 实际的查询:几个词 方法 查询扩展:扩展出相关词 例如,查询词= 马航 扩展词=MH370,客机,失联, 波音777,...... 生成词向量 [与文档表示方法一样] TF-IDF权重的词向量 ;问题 海量数据:谷歌,百度这样大型的商业搜索引擎索引都是亿级甚至几千亿的网页数量。 针对一个查询,如何快速找到包含查询词的文档? 毫秒级时间 方法 对文档建立倒排索引(Inverted Index ) 记录每个词条在哪些文档中出现过;信息检索:倒排索引(Inverted Index );问题 索引数据集合:已经表示成词向量集合,记为{Di} 用户查询请求:已经表示成词向量,记为Q 查找:相关的数据列表 关键问题:计算Di与Q的相似度,排序给出最相关的结果 相似度计算 余弦相似度;系统评价 系统效率和效果怎么样。 效率 时间:算法速度 空间:存储资源,计算资源 效果 检索到的文档是否相关? 查准率 (精度precision ) 所有相关文档是否都找到了? 查全率(召回率recall) ;开源搜索引擎平台 面向研究 卡耐基-梅隆大学的Lemur 和 Indri 面向应用 Lucene Xapian Sphinx; 信息时代的机遇和挑战 信息检索 信息抽取 机器学习 ;谷歌和百度是否足够? 信息检索功能:从文档集中找到最相关的文档。 是否有正好符合需求的文档? 能不能让计算机把相关信息自动搜集整理起来,一起提供给用户?;信息抽取(Information extraction, IE) 是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。 例如: 从新闻报道中抽取出恐怖事件的详细情况:时间、地点、作案者、受害者、袭击目标、使用的武器等; 从经济新闻中抽取出公司发布新产品的情况:公司名、产品名、发布时间、产品性能等; 从病人的医疗记录中抽取出症状、诊断记录、检验结果、处方、治疗结果等等。;信息检索(IR)与信息抽取(IE) 信息检索 从文档集中找到相关的文档。用户必须从找到的文档中翻阅自己所要的信息。 相关理论:信息论, 概率论, 统计学 技术相对成熟 信息抽取 从文档集中提取相关的信息。 相关理论:计算语言学,自然语言处理技术,机器学习 技术不成熟 两者联系 满足不同层次的信息需求,逐渐结合。;;;事件检测 抽取出新闻报到中的各种事件,提取出每个事件的关键信息(动态信息的提取) 恐怖袭击:时间、地点、作案者、受害者、袭击目标、使用的

文档评论(0)

yaocen + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档