实体关系自动抽取技术的比较研究论文.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
--完美WORD文档DOC格式,可在线免费浏览全文和下载,是一篇优秀的毕业设计论文,可为大学生本专业本院系本科专科大专和研究生学士硕士相关类学生提供毕业论文范文范例指导,也可为要代写发表职称论文的提供参考。

国内图书分类号:TP391.1 国际图书分类号:681.37  学校代码:10213 密级:公开 工学硕士学位论文 实体关系自动抽取技术的比较研究 硕 士 研究生: 导 师: 申请学位级别: 学 科、专 业: 所 在 单 位: 答 辩 时 间: 授予学位单位:  宁海燕 王晓龙 教授 工学硕士 计算机科学与技术 计算机科学与技术学院 2010 年 6 月 哈尔滨工业大学 哈尔滨工业大学工学硕士学位论文 Classified Index: TP391.1 U.D.C.: 681.37 Dissertation for the Master Degree in Engineering COMPARATIVE STUDY OF AUTOMATIC ENTITY RELATION EXTRACTION Candidate: Supervisor: Academic Degree Applied for: Specialty: Affiliation: Date of Defence: Degree-Conferring-Institution:  Ning Haiyan Prof. Wang Xiaolong Master of Engineering Computer Science and Technology School of Computer Science and Technology June, 2010 Harbin Institute of Technology 哈尔滨工业大学工学硕士学位论文 摘  要 随着计算机技术和网络技术的不断发展,海量信息以电子文档的形式出 现在人们面前。从这些自然文本中提取出有用的信息,日益成为人们关注的 问题。因此信息抽取技术应运而生,关系抽取是其中的一个子任务。 文本中特定的事实信息称为实体,而确定这些实体之间的关系称为实体 关系抽取。实体关系抽取对本体库的构建以及改进信息检索技术等有重要的 作用。本文重点对实体关系抽取技术的几个问题进行了研究和解决: 首先,本文抽取了传统命名实体以外的存在重要语义关系的词:领域术 语。针对领域术语评测数据的不统一和评价的困难性,通过词典评测、人工 评测在准确率、召回率、F度量等评价指标上与几种主流的基于统计的术语 抽取方法进行了详细的对比和分析。本文还提出了基于线性支持向量机权重 的术语抽取方法,实验结果表明,该方法能有效地抽取领域术语。 其次,本文基于不同的应用需求,利用统一的语料对比研究了基于特征 的有监督、半监督和无监督的实体关系抽取方法。 在有监督实体关系抽取方法中,前人的研究工作没有考虑各种特征对两 个实体间无关系即 no-relation 的影响。对此,本文详细对比了通用特征:实 体周围词语、实体类型、子类型、实体位置、实体中心词和内容的依存句法 分析对真正关系和 no-relation 的影响,并提出了新特征:特征词位置信息, 实验表明该特征能有效提高实体关系抽取的准确率。 本文通过 Bootstrapping 半监督实体关系抽取方法进行了不同的对比实 验:实体特征、种子集规模对实体关系抽取性能的影响;同等条件下,半监 督实体关系抽取方法与有监督实体关系抽取方法的性能比较。实验结果表明 半监督实体关系抽取能够提高实体关系抽取的准确率。 无监督实体关系抽取方法主要采用的是聚类方法,因此本文主要研究了 聚类算法以及合并策略对实体关系抽取的影响。本文对比研究了三种聚类算 法,即 K-means、自组织映射和 Affinity Propagation 算法,以及两种合并策 略(DCM 和 Cosine)。Affinity Propagation 算法能够取得较优的结果,自组 织映射算法在运行时间上更有优势。 关键词  实体关系抽取;领域术语抽取;Bootstrapping;聚类;DCM 合并 -I- 哈尔滨工业大学工学硕士学位论文 Abstract With the development of computer and network technology, large amount of information in form of electronic documents has appeared. More and more attentions are paid to extract useful information from these texts. Therefore, information extraction technology has become prevalent and relation extraction is one of the important sub

文档评论(0)

***** + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档