- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Web信息处理与应用
第九节
实体识别
徐童 2019.11.7
1
先前回顾
• 传统的信息检索是如何实现的
• 信息检索模型是用来描述文档与查询的表示形式与相关性的框架
• 信息检索的实质是对文档基于相关性进行排序
• 好的信息检索模型,可以在理解用户的基础之上,产生近似用户决策
的结果,从而在顶部返回最相关的信息
• 信息检索模型的形式化表述:[D, Q, F, R(Di, q)]
• D :文档表达(可视作索引词项的集合)
• Q :查询表达
• F :查询与文档间的匹配框架
• R :查询与文档间的相关性度量函数(Di与q分别表示特定文档与查询)
先前回顾
• 然而,传统信息检索返回的是“文档的集合”,而非信息
先前回顾
• 如今,用户对“信息”的需求更为迫切
人们已不再满足于单纯呈现原始的文档,
而需要更加精炼的知识表达与更加直观的需求解决。
本节主题
• 本课程所要解决的问题
Web信息
第八个问题:
信息抓取
如何从文档中提取信息和知识?
文本处理
查询
信息抽取
排序
索引
数据挖掘
评估
问题背景
• 响应用户需求,搜索引擎的结果日益丰富
那么,这些信息从何而来?
本节目录
• 信息抽取概述
• 知识图谱概述
• 命名实体识别
信息抽取
• 信息抽取的含义
• 从语料中抽取指定的事件、事实等信息,
形成结构化的数据
• 被抽取的信息以预先定义的、结构化
的形式描述。
• 为后续的情报分析、自动文摘、问答
系统等一系列应用提供服务。
信息抽取
• 信息抽取是整合与分析的基础
↓ 竞争分析
↑ 企业关联
信息抽取
• 信息抽取与信息检索
• 两者密切相关,却又存在鲜明差异
原创力文档


文档评论(0)