基于维基百科领域历史沿革信息抽取.docVIP

下载本文档

15
0
约1.09万字
约 19页
2018-08-30 发布于福建
举报
版权申诉

基于维基百科领域历史沿革信息抽取.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于维基百科领域历史沿革信息抽取

基于维基百科领域历史沿革信息抽取　　摘要：针对在软件工程的教学过程中，由于领域概念种类多、演变快，导致学生理解记忆困难的问题，提出了通过抽取软件工程领域历史沿革主题信息构建知识库的方法。该方法首先结合自然语言处理技术与Web信息抽取技术从维基百科的自由文本中抽取实体与实体关系构建候选集；再利用关键词抽取方法TextRank从候选集中抽取与历史沿革关系最密切的实体关系；最后以关键实体关系为核心，抽取邻近的时间实体与概念实体组成五元组构建了知识库。在抽取信息的过程中，结合文本的语义信息对TextRank算法进行了改进，提高了抽取的准确率。实验结果表明，该知识库能够将软件工程领域的概念按时序特征组织在一起，验证了所提方法的有效性。　　关键词：软件工程；历史沿革；信息抽取；关键词抽取；TextRank 　　中图分类号：TP391.1 　　文献标志码：A 　　Abstract：The domain concepts are complex， various and hard to capture the development of concepts in software engineering. Its difficult for students to understand and remember. A new effective method which extracts the historical evolution information on software engineering was proposed. Firstly， the candidate sets included entities and entity relationships from Wikipedia were extracted with the Nature Language Processing （NLP） and information extraction technology. Secondly， the entity relationships which being closest to historical evolution from the candidate sets were extracted using TextRank； Finally， the knowledge base was constructed by quintuples composed of the neighboring time entities and concept entities with concerning the key entity relationship. In the process of information extraction， TextRank algorithm was improved based on the text semantic features to increase the accuracy rate. The results verify the effectiveness of the proposed algorithm， and the knowledge base can organize the concepts in software engineering field together according to the characteristics of time sequence. 　　英文关键词Key words：software engineering； history evolution； information extraction； keyword extraction； TextRank 　　0 引言　　在软件工程专业的课程教学中，软件工程领域的概念不仅种类繁多，而且概念的演变、演化频繁，导致学生理解、记忆困难，影响了教学效果。为此，希望将软件工程领域的知识全面、系统、有效地组织起来，帮助学生加深对概念的理解，达到改善教学效果的目的。通过构建软件工程领域历史沿革主题的知识库，不仅可以帮助学生了解领域概念的发展变化过程，而且有助于他们分析领域概念之间的联系。同时，这样的知识库对其他领域也具有重要价值。例如：在科学技术研究中，有助于研究者发现现有概念的不足，从而提出新概念，促进学科的发展；在自然语言处理领域，有助于领域知识的获取、复用及推理，是文本分析和理解的重要背景知识。信息抽取是自动构建领域历史沿革主题知识库的有效方法。传统的信息抽取主要是利用自然语言处理技术从自由文本中抽取实体和实体关系[1]。随着互联网技术的飞速发展与普及，互联网