- 1、本文档共29页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
实体链接技术进展
韩先培 孙乐
存储与信息检索研究室存储与信息检索研究室
中科院软件所中科院软件所
大纲大纲
• 实体链接实体链接
• 基于实体知识的链接基于实体知识的链接
• 基于文本主题的链接
• 融合实体知识与文本主题
•• 总结总结
大纲大纲
• 实体链接实体链接
• 基于实体知识的链接基于实体知识的链接
• 基于文本主题的链接
• 融合实体知识与文本主题
•• 总结总结
为什么需要链接为什么需要链接
• 计算机需要理解文本的意义计算机需要理解文本的意义
• 苹果发布了新的iPad 水果苹果,苹果公司,还是苹
果银行果银行??
• 中关村市场的苹果产品卖的不错
• 新新发地发地市场的市场的苹苹果果产产品品卖的不错卖的不错
• 影响许影响许多任务的性能多任务的性能
• 查询意图分析
• 文本文本挖掘挖掘
• 知识库构建
• …
实体链接定义实体链接定义
• 给定给定一篇文本中的实体指称篇文本中的实体指称 (mentiion),确定这确定这
些指称在给定知识库中的目标实体
用于实体链接的信息用于实体链接的信息
• 实实体相关知识体相关知识
• 指称的上下文与实体越匹配,则越可能链接到对
应实体应实体
• 上下文中出现水果,超市,维生素这些词,则苹
果果更有更有可能指向能指向水果苹果水果苹果 ,而不是是苹果公苹果公司
• 篇章主题
• 同同一篇文本中的实体应当与文本的主题相关篇文本中的实体应当与文本的主题相关
• 出现实体ipad和iphone的文章也更有可能出现
苹果公司苹果公司 ,而不是,而不是水果苹果或苹果银行水果苹果或苹果银行
6
大纲大纲
• 实体链接实体链接
• 基于实体知识的链接基于实体知识的链接
• 基于文本主题的链接
• 融合实体知识与文本主题
•• 总结总结
基于实体基于实体--提及模型的实体链接提及模型的实体链接
人们在进行链接工作时人们在进行链接工作时 ,使使用了大用了大量关于量关于
实体的知识
实体的知名度
实体的名字分布实体的名字分布
实体的上下文分布
提出了实体-提及模型来融合上述异构知识
实体知名度实体知名度
水果苹果水果苹果
苹果公司
苹果公司
苹果苹果
苹果银行
电影苹果
0.00% 10.00% 20.00% 30.00% 40.00%
实体的名字实体的名字分布分布
• 一个实体的名字通常个实体的名字通常是固定的定的 ,且以以一定的定的
概率出现概率出现
• IBMIBM和和国际商用机器公司国际商用机器公司都可以作为都可以作为IBMIBM公公
司的名字,但是BMI,Oracle不会作为它的
名字
• IBM比全称国际商用机器公司更常作为IBM
公司的名字出的名字出现
实体名字模型实体名字模型
• 我们假设实体名我们假设实体名s是实体全名是实体全名ff的的一个个IBM模型模型11翻翻
译
• 一个词可以通过如下方式翻译
• 保持原始形式保持原始形式 :迈克尔迈克尔迈克尔迈克尔
• 缩写:亲爱的顾客 亲 (淘宝体)
•• 省略:省略:温家宝温家宝总理总理 …总理总理
• 翻译为其它词语:乔丹佐顿,科比大神
实体的上下文词分布实体的上下文词分布
• 不同实体的上实体的上下文词分布通常有极大的差异文词分布通常有极大的差异
苹果公司 苹果银行
基于实体基于实体-提及模型融合上述知识提及模型融合上述知识
知识库知识库
苹果(水苹果(水
知名度 苹果公司
果)
名字 苹果 Ap
文档评论(0)