基于领域本体信息抽取方法探究.docVIP

下载本文档

0
0
约2.9千字
约 6页
2017-08-16 发布于福建
举报
版权申诉

基于领域本体信息抽取方法探究.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于领域本体信息抽取方法探究

基于领域本体信息抽取方法探究摘要：本文介绍了领域本体以及基于其上的信息抽取方法和技术，根据目前自然语言发展所遇到的问题以及Internet的迅速发展，面对海量的数据和web文档，探讨基于先建立知识表示清晰，结构清楚的领域本体的可能性，并对在其上的信息抽取技术进行展望。关键词：自然语言；信息抽取；方法中图分类号：TP392 文献标识码：A 文章编号：1006-4311（2012）06-0117-01 0 引言信息抽取（Information Extraction）技术作为目前发展迅速的关于实体关系抽取的技术，已经被应用到越来越广泛的领域。本文针对一个特定的领域，首先介绍信息抽取的技术方法，讨论了IE的任务和所存在的问题，并总结基于领域本体的IE的优点，最后对IE的发展进行展望。 1 信息抽取的技术方法信息抽取的主要任务是将大量查询十分不易的无结构或者半结构的文本转化为有固定格式，无歧义的结构化的信息，这些信息可以直接向用户显示，也可以作为原文信息检索的索引，并以数据库或电子表格的形式进行存储，以供用户方便的查询和进一步的利用。目前，信息抽取技术主要是两大方法，知识工程方法（KE）和机器学习方法（ML）。知识工程（KE）方法依靠人工编写抽取模式，使系统能处理特定知识领域的信息抽取问题。知识工程方法的设计初始阶段较容易，但是要实现较完善的规则库的过程往往比较耗时耗力，这种系统依赖于人们手工建立的抽取模式，而这些规则很难保证具有整体的系统性和逻辑性。并且这些规则领域相关性较高，所以基于知识工程方法建立的信息抽取系统移植性较差。机器学习方法根据训练文本是否经过人工标注，又可分为有指导的机器学习方法（Supervised Machine Learning，S-ML）和无指导的机器学习方法（Un-supervised Machine Learning）。其中有指导的机器学习方法的研究起步较早。经过十几年的研究和发展，目前利用这种方法国外已经开发出不少实用的信息抽取系统。这些系统中的S-ML方法可以分为以下几类：基于特征向量的机器学习方法，如支持向量机（SVM），这是目前运用比较多的一种方法，基于统计模型的机器学习方法，如隐马尔可夫模型（Hidden Markov Model）、最大熵模型（Maximum Entropy Model）和条件随机场模型（Conditional Random Fields Model），其中HMM算法已经具备较成熟的理论基础，基于Kernel的机器学习方法以及多种机器学习方法的集成。但是S-ML方法需要大量的标注训练语料的支持，而创建新的标注语料库的代价也是较高的，这是这种方法所面临的问题。为了更好的解决信息抽取技术中所遇到的问题，本论文从领域本体作为入手点，提出基于领域本体的信息抽取方法，希望以一种新的知识组织方式来解决传统IE中的难点问题，从而使得信息抽取的召回率和精准率得到了进一步的提高。 2 信息抽取技术现存问题首先，信息抽取存在的问题便是移植性差的问题，由于领域不同，所以人工构造出的知识模型只能适用于特定的领域，而无法复用，一般说来，手工编制领域知识只有具有专门知识（应用领域知识、知识描述语言知识等）的人员才能胜任这种工作，编制过程枯燥、费时、容易出错和产生疏漏，费用较高。另外，人工编制的知识库较难达到很高的语言覆盖面。当信息抽取的任务发生改变时，要组织人员重新编制规则，而此时原来的开发人力资源往往很难得到，系统的可移植性差。因此，手工知识获取问题已经成为制约信息抽取技术广泛应用的一个主要障碍。其次，随着应用范围的扩大，手工获取规则突兀成为知识工程的瓶颈，使得抽取所得结果的准确率下降。第三，对于特定用户人群的特定需求分析不够明确，也使得最终所得结果离期望结果有一定程度的偏差。这些问题都是目前信息抽取技术中所存在的关键问题和难点问题，本文针对以上问题提出领域本体的构思，最主要的是在知识获取上引入本体的方法，使得对结构相似但有细微变化的文档具有一定的适应能力。虽然无法完全解决对复杂问题和数据结构变化较大的文档的可移植，但提出了一个思路，由于其本身可以不断的扩充，完善，最终可以实现领域内的共享和重用。另外知识图的引入是本选题的另外一个重点，基于知识图建立的本体具有结构清楚，语义清晰的特点，这为后面规则系统的建立和特定信息的抽取提供了更为高效和准确的方法。 3 基于领域本体的IE方法的好处基于本体的信息抽取技术相对于传统IE系统采平板结构组织知识，采用了Ontology结构组织知识，可以有效地定义实体和关系。传统IE不能很好地处歧义消解问题，必须先识别出一篇文章中的所有实体，能对其进行歧义消解，实现难度较大；基于本体的信息抽取系统可