北邮徐蔚然教授信息工程导论课件——信息抽取与信息检索2015.pptxVIP

下载本文档

6
0
约2.39千字
约 39页
2019-10-15 发布于湖北
举报
版权申诉

北邮徐蔚然教授信息工程导论课件——信息抽取与信息检索2015.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

北京邮电大学模式识别实验室 ; 信息时代的机遇和挑战信息检索信息抽取机器学习 ; 信息时代的机遇和挑战信息检索信息抽取机器学习 ;信息技术革命（第三次技术革命） 250 年前，发明蒸汽机 ? 工业革命 100 年前，电磁场理论，发现电子 ? 电气革命 50 年前，发明计算机，信息数字化 ? 信息革命;生活方式的改变送别、信件、娱乐学习方法的改变图书馆、互联网、MOOC 工作方式的改变信息行业、SOHO 社会的改变经济全球化 ;IBM PC机硬件微软软件 Netscape 浏览器 Yahoo 门户网站 Google/百度搜索引擎 Twitter/新浪微博微博 Facebook /腾讯社交网络服务网站 … … ;从内容的传输到内容的处理传输技术/网络技术的发展和成熟内容处理的挑战最有代表性的内容处理问题：语言文字语言文字专门用来传递信息和承载知识与人类的智能密不可分大数据时代的技术瓶颈互联网有我们需要的海量信息和知识，但是我们找不到它们。 ; 信息时代的机遇和挑战信息检索信息抽取机器学习 ;;搜索引擎;;;四个应用例子的共同特征给定需求(或者是对象)，从信息库中找出最匹配的信息(或对象) ;信息检索是指信息按一定的方式组织起来，并根据信息用户的需要找出有关的信息的过程和技术。 ;信息检索系统给定：索引数据集合+用户查询请求查找：相关的数据列表;;信息检索:信息检索中的关键问题和方法;爬取 Crawling 内容表示 Representation 数据索引 Indexing 相似度计算 Retrieval 系统评价 Evaluation ;目标表示出文档的内容和语义，方便于信息的查找考虑因素准确表达文本的语义全面覆盖文本全部内容方便计算机处理主要方法向量空间模型(Vector Space Model) 词袋模型(Bag Of Words) :忽略文档的词语顺序和语法、句法等要素，仅将其看作是若干个词汇的集合。 TF（词频）: 一个词在一篇文档中出现的次数 DF（文档频率）:全部文档集合中包含该词的文档数 IDF: ID的倒数 ;信息检索: 文档和查询的内容表示;查询的内容表示理想的查询：一篇文档实际的查询：几个词方法查询扩展：扩展出相关词例如，查询词= 马航扩展词=MH370,客机,失联, 波音777，...... 生成词向量 [与文档表示方法一样] TF-IDF权重的词向量 ;问题海量数据：谷歌，百度这样大型的商业搜索引擎索引都是亿级甚至几千亿的网页数量。针对一个查询，如何快速找到包含查询词的文档？毫秒级时间方法对文档建立倒排索引(Inverted Index ) 记录每个词条在哪些文档中出现过;信息检索:倒排索引(Inverted Index );问题索引数据集合：已经表示成词向量集合，记为{Di} 用户查询请求：已经表示成词向量，记为Q 查找：相关的数据列表关键问题：计算Di与Q的相似度，排序给出最相关的结果相似度计算余弦相似度;系统评价系统效率和效果怎么样。效率时间：算法速度空间：存储资源，计算资源效果检索到的文档是否相关？查准率（精度precision ）所有相关文档是否都找到了？查全率（召回率recall） ;开源搜索引擎平台面向研究卡耐基－梅隆大学的Lemur 和 Indri 面向应用 Lucene Xapian Sphinx; 信息时代的机遇和挑战信息检索信息抽取机器学习 ;谷歌和百度是否足够? 信息检索功能：从文档集中找到最相关的文档。是否有正好符合需求的文档？能不能让计算机把相关信息自动搜集整理起来，一起提供给用户？;信息抽取(Information extraction, IE) 是把文本里包含的信息进行结构化处理，变成表格一样的组织形式。例如：从新闻报道中抽取出恐怖事件的详细情况：时间、地点、作案者、受害者、袭击目标、使用的武器等；从经济新闻中抽取出公司发布新产品的情况：公司名、产品名、发布时间、产品性能等；从病人的医疗记录中抽取出症状、诊断记录、检验结果、处方、治疗结果等等。;信息检索（IR）与信息抽取（IE）信息检索从文档集中找到相关的文档。用户必须从找到的文档中翻阅自己所要的信息。相关理论：信息论, 概率论, 统计学技术相对成熟信息抽取从文档集中提取相关的信息。相关理论：计算语言学,自然语言处理技术,机器学习技术不成熟两者联系满足不同层次的信息需求，逐渐结合。;;;事件检测抽取出新闻报到中的各种事件，提取出每个事件的关键信息（动态信息的提取）恐怖袭击：时间、地点、作案者、受害者、袭击目标、使用的