Web信息处理与应用.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Web信息处理与应用 第九节 实体识别 徐童 2019.11.7 1 先前回顾 • 传统的信息检索是如何实现的 • 信息检索模型是用来描述文档与查询的表示形式与相关性的框架 • 信息检索的实质是对文档基于相关性进行排序 • 好的信息检索模型,可以在理解用户的基础之上,产生近似用户决策 的结果,从而在顶部返回最相关的信息 • 信息检索模型的形式化表述:[D, Q, F, R(Di, q)] • D :文档表达(可视作索引词项的集合) • Q :查询表达 • F :查询与文档间的匹配框架 • R :查询与文档间的相关性度量函数(Di与q分别表示特定文档与查询) 先前回顾 • 然而,传统信息检索返回的是“文档的集合”,而非信息 先前回顾 • 如今,用户对“信息”的需求更为迫切 人们已不再满足于单纯呈现原始的文档, 而需要更加精炼的知识表达与更加直观的需求解决。 本节主题 • 本课程所要解决的问题 Web信息 第八个问题: 信息抓取 如何从文档中提取信息和知识? 文本处理 查询 信息抽取 排序 索引 数据挖掘 评估 问题背景 • 响应用户需求,搜索引擎的结果日益丰富 那么,这些信息从何而来? 本节目录 • 信息抽取概述 • 知识图谱概述 • 命名实体识别 信息抽取 • 信息抽取的含义 • 从语料中抽取指定的事件、事实等信息, 形成结构化的数据 • 被抽取的信息以预先定义的、结构化 的形式描述。 • 为后续的情报分析、自动文摘、问答 系统等一系列应用提供服务。 信息抽取 • 信息抽取是整合与分析的基础 ↓ 竞争分析 ↑ 企业关联 信息抽取 • 信息抽取与信息检索 • 两者密切相关,却又存在鲜明差异

文档评论(0)

fkh4608 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档