一种利用本体关联度改进地TF-IDF特征词提取方法.pdfVIP

下载本文档

31
0
约5.17万字
约 41页
2015-10-30 发布于安徽
举报
版权申诉

一种利用本体关联度改进地TF-IDF特征词提取方法.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

摘要摘要传统的 TF-IDF 文本特征词提取方法是一种基于统计的方法，它将词语作为独立的单元进行处理，通过统计文本中词语出现的频次及文本集合中包含同一词语的文本数量确定文本的特征词。该方法虽然能够在一定程度上降低计算时间、简化文本特征词提取的步骤，但存在未考虑词语之间的关联关系、忽略区分度较高的低频词等不足，从而限制了文本特征词提取的精确度。本体具有良好的概念层次结构和对逻辑推理的支持，并能够通过概念层次图表示概念术语间的关联关系。为了优化传统的文本特征词提取方法，将本体引入到文本特征词提取中，并构建了适合论文实验的两个简单领域本体，通过改进现有的语义相似度和语义相关度计算方法得到一种本体关联度计算方法，利用该计算方法计算领域本体中概念之间的本体关联度。本文提出一种利用本体关联度改进的文本特征词提取方法。该方法首先利用传统的 TF-IDF 方法构建候选特征词集合和非候选特征词集合，然后根据领域本体知识在非候选特征词集合中提取候选特征词的本体关联词；再利用候选特征词与其本体关联词之间的本体关联度、候选特征词的初始权重、本体关联词的个数以及本体关联词自身的权重调整候选特征词的权重；最后根据调整后的权重得到新的候选特征词排序。该方法考虑了词语之间的关联关系，并且能够将区分度较高的低频词识别出来作为文本特征词，从而弥补了传统的 TF-IDF 文本特征词提取方法在词语之间关联关系、区分度较高的低频词识别等方面的不足。实验结果证明，该方法能够有效提高文本特征词提取的准确度。关键词文本特征词提取 TF-IDF 本体关联词本体关联度 I Abstract Abstract Traditional TF-IDF text feature extraction method is a method based on statistical theory. This method takes text feature as a separate unit, and determines the feature word of the text by counting the frequency of a word which appears in a text and the number of the texts which include this word and appear in the text set. Although this method can reduce the computation time to some extent, and simplify the steps of the text feature extraction, but this method have weak points, such as not considering the relationship between words, ignoring the words with low frequency which can express the content of the text, and so on. Because of the weak points, the accuracy of extracting text feature by this method is not high. Ontology has a good concept of hierarchy and support logical reasoning, and expresses the relationship between terms by the concept of hierarchical graph. In order to optimize the traditional TF-IDF text feature extraction met