- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
--完美WORD文档DOC格式,可在线免费浏览全文和下载,是一篇优秀的毕业设计论文,可为大学生本专业本院系本科专科大专和研究生学士硕士相关类学生提供毕业论文范文范例指导,也可为要代写发表职称论文的提供参考。
国内图书分类号:TP391.1
国际图书分类号:681.37
学校代码:10213
密级:公开
工学硕士学位论文
实体关系自动抽取技术的比较研究
硕 士 研究生:
导 师:
申请学位级别:
学 科、专 业:
所 在 单 位:
答 辩 时 间:
授予学位单位:
宁海燕
王晓龙 教授
工学硕士
计算机科学与技术
计算机科学与技术学院
2010 年 6 月
哈尔滨工业大学
哈尔滨工业大学工学硕士学位论文
Classified Index: TP391.1
U.D.C.: 681.37
Dissertation for the Master Degree in Engineering
COMPARATIVE STUDY OF AUTOMATIC
ENTITY RELATION EXTRACTION
Candidate:
Supervisor:
Academic Degree Applied for:
Specialty:
Affiliation:
Date of Defence:
Degree-Conferring-Institution:
Ning Haiyan
Prof. Wang Xiaolong
Master of Engineering
Computer Science and Technology
School of Computer Science and
Technology
June, 2010
Harbin Institute of Technology
哈尔滨工业大学工学硕士学位论文
摘
要
随着计算机技术和网络技术的不断发展,海量信息以电子文档的形式出
现在人们面前。从这些自然文本中提取出有用的信息,日益成为人们关注的
问题。因此信息抽取技术应运而生,关系抽取是其中的一个子任务。
文本中特定的事实信息称为实体,而确定这些实体之间的关系称为实体
关系抽取。实体关系抽取对本体库的构建以及改进信息检索技术等有重要的
作用。本文重点对实体关系抽取技术的几个问题进行了研究和解决:
首先,本文抽取了传统命名实体以外的存在重要语义关系的词:领域术
语。针对领域术语评测数据的不统一和评价的困难性,通过词典评测、人工
评测在准确率、召回率、F度量等评价指标上与几种主流的基于统计的术语
抽取方法进行了详细的对比和分析。本文还提出了基于线性支持向量机权重
的术语抽取方法,实验结果表明,该方法能有效地抽取领域术语。
其次,本文基于不同的应用需求,利用统一的语料对比研究了基于特征
的有监督、半监督和无监督的实体关系抽取方法。
在有监督实体关系抽取方法中,前人的研究工作没有考虑各种特征对两
个实体间无关系即 no-relation 的影响。对此,本文详细对比了通用特征:实
体周围词语、实体类型、子类型、实体位置、实体中心词和内容的依存句法
分析对真正关系和 no-relation 的影响,并提出了新特征:特征词位置信息,
实验表明该特征能有效提高实体关系抽取的准确率。
本文通过 Bootstrapping 半监督实体关系抽取方法进行了不同的对比实
验:实体特征、种子集规模对实体关系抽取性能的影响;同等条件下,半监
督实体关系抽取方法与有监督实体关系抽取方法的性能比较。实验结果表明
半监督实体关系抽取能够提高实体关系抽取的准确率。
无监督实体关系抽取方法主要采用的是聚类方法,因此本文主要研究了
聚类算法以及合并策略对实体关系抽取的影响。本文对比研究了三种聚类算
法,即 K-means、自组织映射和 Affinity Propagation 算法,以及两种合并策
略(DCM 和 Cosine)。Affinity Propagation 算法能够取得较优的结果,自组
织映射算法在运行时间上更有优势。
关键词
实体关系抽取;领域术语抽取;Bootstrapping;聚类;DCM 合并
-I-
哈尔滨工业大学工学硕士学位论文
Abstract
With the development of computer and network technology, large amount of
information in form of electronic documents has appeared. More and more
attentions are paid to extract useful information from these texts. Therefore,
information extraction technology has become prevalent and relation extraction
is one of the important sub
您可能关注的文档
最近下载
- DB23T 1043-2006 亚麻原茎初加工机械作业质量.pdf VIP
- GB 19601-2013 染料产品中23种有害芳香胺的限量及测定(高清版).pdf
- DB23T 1046-2006 草莓生产技术规程.pdf VIP
- DB23T 1051-2006 史氏鲟人工繁育技术规程.pdf VIP
- DB23T 1671.4-2015 亿亩生态高产标准农田 大豆生产技术规程.pdf VIP
- 化学海洋学-陈敏-《化学海洋学》(2024级)期末试卷-A.doc VIP
- DB23T 1727-2016 地理标志产品 克东天然苏打水.pdf VIP
- XT0229A16017A_速捷调试指导书(SMART板)SC1001-A.pdf
- DB23T 1791-2021 有限空间作业安全技术规范.pdf VIP
- 供暖管网基本知识培训课件.pptx
文档评论(0)