基于概念词的文本特征提取及应用研究-计算机软件与理论专业论文.docxVIP

  • 4
  • 0
  • 约4.92万字
  • 约 53页
  • 2019-02-20 发布于上海
  • 举报

基于概念词的文本特征提取及应用研究-计算机软件与理论专业论文.docx

重庆大学硕士学位论文中文摘要 重庆大学硕士学位论文 中文摘要 I I 摘 要 当前,海量文本大部分都采用向量空间模型来描述。向量空间模型假定代表 各分量的词条间不存在语义关联。同时,由于文本向量的高维性、稀疏性等问题, 降维处理已经成为文本特征提取中一个重要的环节。本文在知网语义库的基础上, 提出新的词语-概念聚合方法,将语义距离较近的的词聚合成概念词,并把概念词 作为和其他独立的词条一样的单位进行处理。既满足了向量空间模型的基本假设, 又达到降维的目的。 文章主要包含三块内容: 1. 概念词识别的研究。首先,提出概念词的定义。概念词是指两两之间相似 度大于阈值的词语的集合。其次,引入图论中的完全子图来生成概念词。将词和 相似关系转化为顶点和边的集合,从而将概念词识别的问题转化为完全子图的识 别问题。实验发现,直接采用完全子图识别的效果不理想。针对该问题提出“扩展 假定”原则,从简化识别和合并概念词两个方面改进了概念词识别算法。 2. 基于概念词的文本特征提取。文本经过预处理后,文本被表示为以词语为 特征的向量。将词语替换为概念词的过程中,文章提出了简单替换策略。但该方 案存在特征描述不准确的问题。从而引入概念词的消歧研究,以解决一个概念词 中的词在不同的文档中出现而不能被准确替换为同一个概念词的问题。文章采用 LibSVM 文本分类器对同一语料采用与不采用概念词两种方案的聚类结果进行对 比。实验表明,在降维比例达到 25.8%时,分类效果基本不受影响。 3. 概念词在个性化推荐中的应用。将概念词应用于一个用于搜索引擎扩展的 PSE 个性化原型系统中。用实验验证基于概念词的做法提高了搜索引擎扩展的准 确性。虽然文章的研究主要是针对个性化服务的,但对中文信息检索和自然语言 处理同样适用,可以推广到其它涉及到语言处理的领域。 关键词:个性化推荐,概念词,知网,完全子图,特征提取 重庆大学硕士学位论文英文摘要 重庆大学硕士学位论文 英文摘要 II II ABSTRACT Currently, most of the mass texts are described with the vector space model (VSM). It’s assumes that all the terms treated as components are orthogonal. At the same time, dimension reduction has become an important procedure in text feature extraction because of the high dimensions and the low density of the vector. The paper proposes a new word-to-concept gathered method based on the HowNet. The method gathers words with each other get strongly semantic connection into a concept-word, and then consider the concept-word as the same unit like any other words. The experiment results show it not only meets the basic assumptions of VSM, but also reduces the dimensions. This paper mainly contains three aspects as follows: The identification of the concept-word. Firstly, propose a definition of the concept-word which refers to the word-set with the similarities larger than a threshold. Secondly, introduce how to generate the concept-word. By convert the words into vertices and the similarity relations into edges, we change problem of how to recognizing the concept-word into the problem of how to recognizing the complete sub graphs. The exp

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档