基于两步聚类和查询扩展的人名消歧方法的分析-analysis of name disambiguation method based on two-step clustering and query expansion.docxVIP

下载本文档

16
0
约5.42万字
约 73页
2018-05-20 发布于上海
举报
版权申诉

基于两步聚类和查询扩展的人名消歧方法的分析-analysis of name disambiguation method based on two-step clustering and query expansion.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于两步聚类和查询扩展的人名消歧方法的分析-analysis of name disambiguation method based on two-step clustering and query expansion

Research on Name Disambiguation Based on Two-Step Clustering and Query ExpansionAbstractKey Words: Name Disambiguation; Two-Step Clustering; Dependency Feature; Query Expansion; Coreference Resolution; Named entity; Hierarchical ClusterWrittenby:Yang XinxinSupervised by:Li Peifeng and Zhu QiaomingIII目录第一章绪论11.1 课题背景与意义 11.2 研究现状 21.2.1 相关研究21.2.2 评测会议41.3 本文研究内容 41.4 论文结构 5第二章人名消歧相关技术概述72.1 人名消歧基础知识 72.2 人名消歧的难点 82.3 人名消歧一般方法 82.3.1 基于特征的人名消歧方法92.3.2 基于社会网络的人名消歧方法102.4 常用的人名消歧特征 102.5 特征提取和选择方法 112.6 文本相似度计算 132.7 聚类方法 142.7.1 聚类分析的定义152.7.2 聚类算法的分类152.8 语料资源 162.9 评价标准 172.10 人名消歧系统框架 182.11 本章小结 19第三章基于两步聚类的人名消歧研究203.1 研究基础 203.1.1 抽取模式的限制203.1.2 网页预处理限制203.2 解决方法 213.2.1 HTML 结构分析 213.2.2 语料分析233.2.3 指代消解分析233.2.4 依存关系分析243.2.5 解决思路253.3 预处理 263.3.1 预处理框架263.3.2 筛选规则273.3.3 标签去重283.4 构建指代链 283.5 依存分析 293.6 特征抽取 313.7 聚类 323.7.1 第一步聚类323.7.2 第二步聚类333.8 实验结果与分析 333.8.1 以人名为中心的预处理实验与分析333.8.2 两步聚类实验与分析353.8.3 使用不同依存关系抽取特征对人名消歧的影响383.9 本章小结 40第四章基于查询扩展的人名消歧研究414.1 研究基础 414.1.1 查询扩展技术414.1.2 搜索引擎424.2 基于丰富实体特征的查询扩展研究 444.2.1 概要444.2.2 解决方法454.2.3 实验与分析494.3 基于增加语料规模的查询扩展研究 524.3.1 概要524.3.2 解决办法524.3.3 实验与分析534.4 使用丰富实体特征与增加语料规模相结合的人名消歧方法 554.4.1 概要554.4.2 解决办法554.4.3 实验与分析564.5 本章小结 57第五章总结与展望585.1 总结 585.2 展望 58参考文献60攻读学位期间公开发表的论文65攻读硕士学位期间参与的项目66致谢67第一章绪论人类已经步入信息时代，信息产业开始主导全球经济发展，以计算机为代表的新技术在科技产业中占据的地位也越来越重要，并且逐步成为了信息社会发展的推手。信息时代的迅猛发展，使得人们能够便利地获取信息，但同时也面临着如何从海量信息中准确地找到所需内容的困难，于是诸如信息检索、信息抽取、文本分类、自动文摘、机器翻译等自然语言处理技术受到了人们格外的关注。本文主要探讨了自然语言处理中的一个重要研究课题——人名消歧，对其中涉及的相关技术进行了详细研究。本章详细叙述了课题背景、研究意义，简单分析了有关研究现状和发展趋势，最后介绍了本文的主要工作和整体内容安排。1.1 课题背景与意义随着计算机科学技术的日益进步，人们对搜索引擎的要求越来越高，如何让搜索引擎快速准确地提供给人们信息成为一个研究热点。人物搜索作为一种专业搜索引擎，也成为人们关注的重点。调查表明，大约 5%-10%搜索引擎查询中包含有人名[1]，而只有不到 20%的人愿意在搜索人名的时候加上额外信息。同时，人名有很高的歧义性，据美国人口调查局报告显示，每 10 亿人中只有了 90000 个不同的名字[2]。搜索引擎以人名为关键字检索得到的是多个同名人物的相关网页的混合结果，而且还有 “名人”网页淹没“非名人”网页的趋势。例如在谷歌搜索引擎中搜索人名“Michael Jordan”，搜索结果里的“Michael Jordan”会指向十多个不同的现实实体，如 NBA 篮球运动员、美国演员、大学教授等。当搜索引擎返回一长串相关的搜索结果后，用户只能增加查询词重新进行搜索