基于概念词的文本特征提取及应用研究计算机软件与理论专业论文.docxVIP

  • 1
  • 0
  • 约4.56万字
  • 约 51页
  • 2019-02-20 发布于上海
  • 举报

基于概念词的文本特征提取及应用研究计算机软件与理论专业论文.docx

重庆大学硕士学位论文英文摘要 重庆大学硕士学位论文 英文摘要 PAGE PAGE IV service, the work could be extended not only to the Chinese information retrieval, but also to the natural language processing and some other fields. Keywords: Personalized recommendation, Concept-word, HowNet, Complete subgraph, Feature Extraction 重庆大学硕士学位论文目录 重庆大学硕士学位论文 目 录 目 录 中文摘要I 英文摘要 II 1 绪 论 1 1.1 研究背景及意义 1 1.2 研究现状 1 1.2.1 文本降维技术 1 1.2.2 基于语义的特征提取 2 1.3 本文研究的内容 4 1.4 论文组织结构 4 2 概念词识别算法研究 5 2.1 概念词的定义 5 2.2 概念词识别算法 5 2.2.1 概念词识别的基本思路 6 2.2.2 完全子图的识别与实现 6 2.2.3 实验结果 10 2.3 识别算法的改进 12 2.3.1 扩展假设 13 2.3.2 基于扩展假设的概念词合并 13 2.3.3 基于扩展假设的识别简化 18 2.3.4 算法改进 19 2.4 本章小结 20 3 基于概念词的文本特征提取 21 3.1 预处理 22 3.1.1 分词 22 3.1.2 去除停用词 22 3.1.3 词语统计 22 3.1.4 语义相似度计算 22 3.2 概念词的表示 24 3.3 概念词替换 25 3.4 概念词权重计算 25 3.5 特征提取实验 26 3.5.1 实验 1:特征对比 26 3.5.2 实验 2:分类实验 29 3.6 概念词消歧算法研究 30 3.6.1 消歧研究现状 30 3.6.2 概念词如何消歧 31 3.6.3 消歧效果 33 3.7 本章小结 36 4 个性化推荐 37 4.1 PSE 系统简介 37 4.2 个性化推荐中的概念词 37 4.3 采用概念词的个性化推荐的对比 39 4.4 本章小结 42 5 总结与展望 43 5.1 研究工作总结 43 5.2 工作展望 43 致 谢 45 参考文献 46 附 录 48 A. 作者在攻读学位期间发表的论文目录 48 B. 作者在攻读学位期间参与的项目目录 48 重庆大学硕士学位论文1 重庆大学硕士学位论文 1 绪 论 PAGE PAGE 10 1 绪 论 1.1 研究背景及意义 Internet 作为一个开放的、分布式的全球信息的汇聚方式,从其出现至今一直 以惊人的速度发展着。当前 Internet 上的信息呈现雪崩式地增长,每天在网络上新 增的文本涉及领域极为广泛,几乎囊括了人类社会方方面面的信息。网络“信息爆 炸”,造成了信息极大丰富而知识却相对匮乏的问题。一方面,人们希望能够获得 更多的信息;另一方面,人们发现在海量的信息中快速而有效地查找到自己感兴 趣的内容正在变得越来越困难了。如何快速、准确、全面地从浩瀚的信息资源中 寻找到自己所需的内容,已经成为了一项十分有意义的课题[1]。 文本数据作为承载信息的一种重要形式,近年来得到了广泛关注。在海量的 网络信息中,有一大部分是非结构化或半结构化的文本信息。要想从这些文本信 息中迅速有效地获得所需的有关信息,必须先要对这些信息进行分门别类,由此 产生了文本分类技术。文本分类在内容信息的组织与管理、自然语言的处理与理 解和主题识别等领域都起着关键作用。基于文本内容的分类已成为备受关注的热 点之一[2]。与此同时,基于无监督的文本聚类技术也得到了极大地发展[3]。但无论 是文本分类还是文本聚类,都包含了一个极为重要的环节:特征描述或特征提取。 所以,研究特征提取方法对于改进文本分类及聚类的效果,对于后续的文献检索、 文本处理、个性化推荐等领域都有重要的意义。 1.2 研究现状 海量文本采用向量空间模型来描述,必然会是一个高维、稀疏的向量空间。 如果直接在这样一个高维特征空间上进行分类器的训练和分类,会带来两个问题: 其一,很多在低维特征空间具有良好分类性能的分类器在计算上显得力不从心; 其二,在训练样本(训练文本集的个数)一定的前提下,过多的特征使得估计样本统 计变得非常困难,从而降低分类器的推广能力和泛化能力,呈现所谓的“过学习” 或“过训练”的现象[4]。因此寻求一种有效的维数约简方法,降低特征空间的维数, 提高分类的

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档