Web信息处理与应用.PDF

下载文档

29
0
约1.92万字
约 72页
2019-12-29 发布于天津
举报
版权申诉
保障服务

Web信息处理与应用.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Web信息处理与应用第九节实体识别徐童 2019.11.7 1 先前回顾 • 传统的信息检索是如何实现的 • 信息检索模型是用来描述文档与查询的表示形式与相关性的框架 • 信息检索的实质是对文档基于相关性进行排序 • 好的信息检索模型，可以在理解用户的基础之上，产生近似用户决策的结果，从而在顶部返回最相关的信息 • 信息检索模型的形式化表述：[D, Q, F, R(Di, q)] • D ：文档表达（可视作索引词项的集合） • Q ：查询表达 • F ：查询与文档间的匹配框架 • R ：查询与文档间的相关性度量函数（Di与q分别表示特定文档与查询）先前回顾 • 然而，传统信息检索返回的是“文档的集合”，而非信息先前回顾 • 如今，用户对“信息”的需求更为迫切人们已不再满足于单纯呈现原始的文档，而需要更加精炼的知识表达与更加直观的需求解决。本节主题 • 本课程所要解决的问题 Web信息第八个问题：信息抓取如何从文档中提取信息和知识？文本处理查询信息抽取排序索引数据挖掘评估问题背景 • 响应用户需求，搜索引擎的结果日益丰富那么，这些信息从何而来？本节目录 • 信息抽取概述 • 知识图谱概述 • 命名实体识别信息抽取 • 信息抽取的含义 • 从语料中抽取指定的事件、事实等信息，形成结构化的数据 • 被抽取的信息以预先定义的、结构化的形式描述。 • 为后续的情报分析、自动文摘、问答系统等一系列应用提供服务。信息抽取 • 信息抽取是整合与分析的基础 ↓ 竞争分析 ↑ 企业关联信息抽取 • 信息抽取与信息检索 • 两者密切相关，却又存在鲜明差异