基于两步聚类和查询扩展的人名消歧方法的分析-analysis of name disambiguation method based on two-step clustering and query expansion.docxVIP
- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于两步聚类和查询扩展的人名消歧方法的分析-analysis of name disambiguation method based on two-step clustering and query expansion
Research on Name Disambiguation Based on Two-Step Clustering and Query ExpansionAbstractKey Words: Name Disambiguation; Two-Step Clustering; Dependency Feature; Query Expansion; Coreference Resolution; Named entity; Hierarchical ClusterWrittenby:Yang XinxinSupervised by:Li Peifeng and Zhu QiaomingIII目录第一章 绪论11.1 课题背景与意义 11.2 研究现状 21.2.1 相关研究21.2.2 评测会议41.3 本文研究内容 41.4 论文结构 5第二章 人名消歧相关技术概述72.1 人名消歧基础知识 72.2 人名消歧的难点 82.3 人名消歧一般方法 82.3.1 基于特征的人名消歧方法92.3.2 基于社会网络的人名消歧方法102.4 常用的人名消歧特征 102.5 特征提取和选择方法 112.6 文本相似度计算 132.7 聚类方法 142.7.1 聚类分析的定义152.7.2 聚类算法的分类152.8 语料资源 162.9 评价标准 172.10 人名消歧系统框架 182.11 本章小结 19第三章 基于两步聚类的人名消歧研究203.1 研究基础 203.1.1 抽取模式的限制203.1.2 网页预处理限制203.2 解决方法 213.2.1 HTML 结构分析 213.2.2 语料分析233.2.3 指代消解分析233.2.4 依存关系分析243.2.5 解决思路253.3 预处理 263.3.1 预处理框架263.3.2 筛选规则273.3.3 标签去重283.4 构建指代链 283.5 依存分析 293.6 特征抽取 313.7 聚类 323.7.1 第一步聚类323.7.2 第二步聚类333.8 实验结果与分析 333.8.1 以人名为中心的预处理实验与分析333.8.2 两步聚类实验与分析353.8.3 使用不同依存关系抽取特征对人名消歧的影响383.9 本章小结 40第四章 基于查询扩展的人名消歧研究414.1 研究基础 414.1.1 查询扩展技术414.1.2 搜索引擎424.2 基于丰富实体特征的查询扩展研究 444.2.1 概要444.2.2 解决方法454.2.3 实验与分析494.3 基于增加语料规模的查询扩展研究 524.3.1 概要524.3.2 解决办法524.3.3 实验与分析534.4 使用丰富实体特征与增加语料规模相结合的人名消歧方法 554.4.1 概要554.4.2 解决办法554.4.3 实验与分析564.5 本章小结 57第五章 总结与展望585.1 总结 585.2 展望 58参考文献60攻读学位期间公开发表的论文65攻读硕士学位期间参与的项目66致谢67第一章 绪论人类已经步入信息时代,信息产业开始主导全球经济发展,以计算机为代表的新 技术在科技产业中占据的地位也越来越重要,并且逐步成为了信息社会发展的推手。 信息时代的迅猛发展,使得人们能够便利地获取信息,但同时也面临着如何从海量信 息中准确地找到所需内容的困难,于是诸如信息检索、信息抽取、文本分类、自动文 摘、机器翻译等自然语言处理技术受到了人们格外的关注。本文主要探讨了自然语言处理中的一个重要研究课题——人名消歧,对其中涉及 的相关技术进行了详细研究。本章详细叙述了课题背景、研究意义,简单分析了有关 研究现状和发展趋势,最后介绍了本文的主要工作和整体内容安排。1.1 课题背景与意义随着计算机科学技术的日益进步,人们对搜索引擎的要求越来越高,如何让搜索 引擎快速准确地提供给人们信息成为一个研究热点。人物搜索作为一种专业搜索引 擎,也成为人们关注的重点。调查表明,大约 5%-10%搜索引擎查询中包含有人名[1], 而只有不到 20%的人愿意在搜索人名的时候加上额外信息。同时,人名有很高的歧义 性,据美国人口调查局报告显示,每 10 亿人中只有了 90000 个不同的名字[2]。搜索 引擎以人名为关键字检索得到的是多个同名人物的相关网页的混合结果,而且还有 “名人”网页淹没“非名人”网页的趋势。例如在谷歌搜索引擎中搜索人名“Michael Jordan”,搜索结果里的“Michael Jordan”会指向十多个不同的现实实体,如 NBA 篮 球运动员、美国演员、大学教授等。当搜索引擎返回一长串相关的搜索结果后,用户 只能增加查询词重新进行搜索
您可能关注的文档
- 基于宽频带uhf rfid标签天线的研究与设计-research and design of rfid tag antenna based on broadband uhf.docx
- 基于框架理论分析一词多义动词的意义建构——以“make”为例-analyzing the meaning construction of polysemous verbs based on frame theory - taking.docx
- 基于宽体钢箱梁的气动导纳分析-aerodynamic admittance analysis based on wide steel box girder.docx
- 基于宽带智能网体系实现vod业务的分析-analysis of vod service based on broadband intelligent network system.docx
- 基于喹啉体系的锌离子荧光化学传感器的分析-analysis of zinc ion fluorescence chemical sensor based on quinoline system.docx
- 基于扩大就业的城市化发展路径研究——以云南省为例-research on urbanization development path based on employment expansion - taking yunnan province as an example.docx
- 基于跨媒体信息和高效图像编码算法图像搜索关键技术-key technology of image searching base on cross-media information and efficient image coding algorithm.docx
- 基于扩大就业的城市化发展路径分析——以云南省为例-analysis of urbanization development path based on expanding employment - taking yunnan province as an example.docx
- 基于昆山乡土文化的高中音乐鉴赏课程资源开发分析-development and analysis of high school music appreciation curriculum resources based on kunshan local culture.docx
- 基于扩频技术的智能消防监控系统的分析-analysis of intelligent fire control monitoring system based on spread spectrum technology.docx
- 基于梁柱结点转角变化的框架结构损伤检测分析-damage detection and analysis of frame structure based on the change of beam-column joint angle.docx
- 基于两阶段dea方法的我国商业银行效率分析-efficiency analysis of chinese commercial banks based on two-stage dea method.docx
- 基于两级存储的正则表达式匹配技术分析-analysis of regular expression matching technology based on two-level storage.docx
- 基于梁型结构振动的无损检测技术分析-analysis of nondestructive testing technology based on beam structure vibration.docx
- 基于两型社会理念的船舶装备全寿命周期价值风险管理分析-risk management analysis of ship equipment's life-cycle value based on two-oriented social philosophy.docx
- 基于两类非线性时间序列模型的预报分析-forecasting analysis based on two kinds of nonlinear time series models.docx
- 基于两型社会视角的企业自主创新能力评价分析-evaluation and analysis of enterprises' independent innovation ability based on two - oriented society perspective.docx
- 基于两种柔顺单元柔顺机构的动力学分析与仿真-dynamic analysis and simulation of compliant mechanism based on two compliant units.docx
- 基于量价关系的城市房地产市场分 类调控研究 —35个大中城市数据的分析-research on the regulation and control of urban real estate market by categories based on the relationship between quantity and price - analysis of data of 35 large and medium-sized cities.docx
- 基于量化索引调制的抗共谋指纹技术分析-analysis of anti - collusion fingerprint technology based on quantization index modulation.docx
最近下载
- 疟疾考核试题库270题.doc VIP
- 新教材2024_2025学年高中数学第一章数列综合测评北师大版选择性必修第二册.doc VIP
- 校园小品搞笑励志剧本_七人校园搞笑小品剧本.docx VIP
- 通桥(2016)2229-Ⅰ(31.5m)预制有砟轨道预制后张法预应力混凝土简支整孔箱梁(双线、单箱单室).docx VIP
- 抖音运营企业抖音推广方案怎么做.pdf VIP
- 人教版(2024)七年级下册英语Unit 7 A Day to Remember单元集体备课教案(共5课时).docx VIP
- 2025年上海春考英语试卷 .pdf VIP
- 农贸市场管理规章制度.docx VIP
- 好的作文开头结尾 摘抄大全.pdf VIP
- 《运动处方》课件——第二章 健康评估与风险筛查.pptx VIP
文档评论(0)