- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
北京邮电大学模式识别实验室
;
信息时代的机遇和挑战
信息检索
信息抽取
机器学习
;
信息时代的机遇和挑战
信息检索
信息抽取
机器学习
;信息技术革命(第三次技术革命)
250 年前,发明蒸汽机 ? 工业革命
100 年前,电磁场理论,发现电子 ? 电气革命
50 年前, 发明计算机,信息数字化 ? 信息革命;生活方式的改变
送别、信件、娱乐
学习方法的改变
图书馆、互联网、MOOC
工作方式的改变
信息行业、SOHO
社会的改变
经济全球化
;IBM PC机硬件
微软 软件
Netscape 浏览器
Yahoo 门户网站
Google/百度 搜索引擎
Twitter/新浪微博 微博
Facebook /腾讯 社交网络服务网站
… … ;从内容的传输到内容的处理
传输技术/网络技术的发展和成熟
内容处理的挑战
最有代表性的内容处理问题:语言文字
语言文字专门用来传递信息和承载知识
与人类的智能密不可分
大数据时代的技术瓶颈
互联网有我们需要的海量信息和知识,但是我们找不到它们。
;
信息时代的机遇和挑战
信息检索
信息抽取
机器学习
;;搜索引擎;;;四个应用例子的共同特征
给定需求(或者是对象),从信息库中找出最匹配的信息(或对象)
;信息检索
是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。
;信息检索系统
给定:索引数据集合+用户查询请求
查找:相关的数据列表;;信息检索:信息检索中的关键问题和方法;爬取 Crawling
内容表示 Representation
数据索引 Indexing
相似度计算 Retrieval
系统评价 Evaluation
;目标
表示出文档的内容和语义,方便于信息的查找
考虑因素
准确表达文本的语义
全面覆盖文本全部内容
方便计算机处理
主要方法
向量空间模型(Vector Space Model)
词袋模型(Bag Of Words) :忽略文档的词语顺序和语法、句法等要素,仅将其看作是若干个词汇的集合。
TF(词频): 一个词在一篇文档中出现的次数
DF(文档频率):全部文档集合中包含该词的文档数
IDF: ID的倒数
;信息检索: 文档和查询的内容表示;查询的内容表示
理想的查询:一篇文档
实际的查询:几个词
方法
查询扩展:扩展出相关词
例如,查询词= 马航
扩展词=MH370,客机,失联, 波音777,......
生成词向量
[与文档表示方法一样] TF-IDF权重的词向量
;问题
海量数据:谷歌,百度这样大型的商业搜索引擎索引都是亿级甚至几千亿的网页数量。
针对一个查询,如何快速找到包含查询词的文档?
毫秒级时间
方法
对文档建立倒排索引(Inverted Index )
记录每个词条在哪些文档中出现过;信息检索:倒排索引(Inverted Index );问题
索引数据集合:已经表示成词向量集合,记为{Di} 用户查询请求:已经表示成词向量,记为Q
查找:相关的数据列表
关键问题:计算Di与Q的相似度,排序给出最相关的结果
相似度计算
余弦相似度;系统评价
系统效率和效果怎么样。
效率
时间:算法速度
空间:存储资源,计算资源
效果
检索到的文档是否相关?
查准率 (精度precision )
所有相关文档是否都找到了?
查全率(召回率recall)
;开源搜索引擎平台
面向研究
卡耐基-梅隆大学的Lemur 和 Indri
面向应用
Lucene
Xapian
Sphinx;
信息时代的机遇和挑战
信息检索
信息抽取
机器学习
;谷歌和百度是否足够?
信息检索功能:从文档集中找到最相关的文档。
是否有正好符合需求的文档?
能不能让计算机把相关信息自动搜集整理起来,一起提供给用户?;信息抽取(Information extraction, IE)
是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。
例如:
从新闻报道中抽取出恐怖事件的详细情况:时间、地点、作案者、受害者、袭击目标、使用的武器等;
从经济新闻中抽取出公司发布新产品的情况:公司名、产品名、发布时间、产品性能等;
从病人的医疗记录中抽取出症状、诊断记录、检验结果、处方、治疗结果等等。;信息检索(IR)与信息抽取(IE)
信息检索
从文档集中找到相关的文档。用户必须从找到的文档中翻阅自己所要的信息。
相关理论:信息论, 概率论, 统计学
技术相对成熟
信息抽取
从文档集中提取相关的信息。
相关理论:计算语言学,自然语言处理技术,机器学习
技术不成熟
两者联系
满足不同层次的信息需求,逐渐结合。;;;事件检测
抽取出新闻报到中的各种事件,提取出每个事件的关键信息(动态信息的提取)
恐怖袭击:时间、地点、作案者、受害者、袭击目标、使用的
您可能关注的文档
最近下载
- 多层住宅小区工程监理规划.docx VIP
- NY_T 3213-2023 植保无人驾驶航空器 质量评价技术规范.docx VIP
- 盘扣式悬挑脚手架施工方案施工计划.doc VIP
- 部编版小学一年级语文上册表格式教案全册.doc VIP
- 电线电缆抗张强度检测结果的测量不确定度评定.doc VIP
- (正式版)H-G-T 22820-2024 化工安全仪表系统工程设计规范.docx VIP
- 绘本故事PPT课件之我好害怕.pptx
- 广东省惠州市博罗县泰美镇城镇总体规划项目建议书.doc VIP
- 虚拟仪器及LabVIEW知到智慧树期末考试答案题库2025年山东科技大学.docx VIP
- 2025年全国Ⅰ卷英语听力评析和听力材料二次开发(课件).pptx
文档评论(0)