- 1
- 0
- 约4.56万字
- 约 51页
- 2019-02-20 发布于上海
- 举报
重庆大学硕士学位论文英文摘要
重庆大学硕士学位论文
英文摘要
PAGE
PAGE IV
service, the work could be extended not only to the Chinese information retrieval, but also to the natural language processing and some other fields.
Keywords: Personalized recommendation, Concept-word, HowNet, Complete subgraph, Feature Extraction
重庆大学硕士学位论文目录
重庆大学硕士学位论文
目
录
目 录
中文摘要I
英文摘要 II
1 绪 论 1
1.1 研究背景及意义 1
1.2 研究现状 1
1.2.1 文本降维技术 1
1.2.2 基于语义的特征提取 2
1.3 本文研究的内容 4
1.4 论文组织结构 4
2 概念词识别算法研究 5
2.1 概念词的定义 5
2.2 概念词识别算法 5
2.2.1 概念词识别的基本思路 6
2.2.2 完全子图的识别与实现 6
2.2.3 实验结果 10
2.3 识别算法的改进 12
2.3.1 扩展假设 13
2.3.2 基于扩展假设的概念词合并 13
2.3.3 基于扩展假设的识别简化 18
2.3.4 算法改进 19
2.4 本章小结 20
3 基于概念词的文本特征提取 21
3.1 预处理 22
3.1.1 分词 22
3.1.2 去除停用词 22
3.1.3 词语统计 22
3.1.4 语义相似度计算 22
3.2 概念词的表示 24
3.3 概念词替换 25
3.4 概念词权重计算 25
3.5 特征提取实验 26
3.5.1 实验 1:特征对比 26
3.5.2 实验 2:分类实验 29
3.6 概念词消歧算法研究 30
3.6.1 消歧研究现状 30
3.6.2 概念词如何消歧 31
3.6.3 消歧效果 33
3.7 本章小结 36
4 个性化推荐 37
4.1 PSE 系统简介 37
4.2 个性化推荐中的概念词 37
4.3 采用概念词的个性化推荐的对比 39
4.4 本章小结 42
5 总结与展望 43
5.1 研究工作总结 43
5.2 工作展望 43
致 谢 45
参考文献 46
附 录 48
A. 作者在攻读学位期间发表的论文目录 48
B. 作者在攻读学位期间参与的项目目录 48
重庆大学硕士学位论文1
重庆大学硕士学位论文
1 绪 论
PAGE
PAGE 10
1 绪 论
1.1 研究背景及意义
Internet 作为一个开放的、分布式的全球信息的汇聚方式,从其出现至今一直 以惊人的速度发展着。当前 Internet 上的信息呈现雪崩式地增长,每天在网络上新 增的文本涉及领域极为广泛,几乎囊括了人类社会方方面面的信息。网络“信息爆 炸”,造成了信息极大丰富而知识却相对匮乏的问题。一方面,人们希望能够获得 更多的信息;另一方面,人们发现在海量的信息中快速而有效地查找到自己感兴 趣的内容正在变得越来越困难了。如何快速、准确、全面地从浩瀚的信息资源中 寻找到自己所需的内容,已经成为了一项十分有意义的课题[1]。
文本数据作为承载信息的一种重要形式,近年来得到了广泛关注。在海量的 网络信息中,有一大部分是非结构化或半结构化的文本信息。要想从这些文本信 息中迅速有效地获得所需的有关信息,必须先要对这些信息进行分门别类,由此 产生了文本分类技术。文本分类在内容信息的组织与管理、自然语言的处理与理 解和主题识别等领域都起着关键作用。基于文本内容的分类已成为备受关注的热 点之一[2]。与此同时,基于无监督的文本聚类技术也得到了极大地发展[3]。但无论 是文本分类还是文本聚类,都包含了一个极为重要的环节:特征描述或特征提取。 所以,研究特征提取方法对于改进文本分类及聚类的效果,对于后续的文献检索、 文本处理、个性化推荐等领域都有重要的意义。
1.2 研究现状
海量文本采用向量空间模型来描述,必然会是一个高维、稀疏的向量空间。 如果直接在这样一个高维特征空间上进行分类器的训练和分类,会带来两个问题: 其一,很多在低维特征空间具有良好分类性能的分类器在计算上显得力不从心; 其二,在训练样本(训练文本集的个数)一定的前提下,过多的特征使得估计样本统 计变得非常困难,从而降低分类器的推广能力和泛化能力,呈现所谓的“过学习” 或“过训练”的现象[4]。因此寻求一种有效的维数约简方法,降低特征空间的维数, 提高分类的
您可能关注的文档
- 基于概率克隆选择微粒群算法的优化设计研究-机械设计及理论专业论文.docx
- 基于概率类方法的OFDM信号优化技术研究-工学专业论文.docx
- 基于多总线技术管材真空退火炉监控系统研究-检测技术与自动化装置专业论文.docx
- 基于多最小支持度的关联规则挖掘研究-计算机技术专业论文.docx
- 基于概率连边的多自主体系统一致性问题研究-控制科学与工程专业论文.docx
- 基于概率灵敏度技术的变电构架可靠性研究-结构工程专业论文.docx
- 基于概率灵敏度技术的钢结构螺栓节点性能研究-结构工程专业论文.docx
- 基于概率论和证据理论的RBDO方法研究-工业工程专业论文.docx
- 基于二氧化锰纳米片构建的功能性纳米材料与性能研究-应用化学专业论文.docx
- 基于服务型政府视域下的行政伦理建设问题探讨-行政管理专业论文.docx
- 中国国家标准 GB/T 6675.9-2025玩具安全 第9部分:化学及类似活动的实验玩具.pdf
- 《GB/T 6675.9-2025玩具安全 第9部分:化学及类似活动的实验玩具》.pdf
- GB/T 46975-2025婴童用品 便携式婴儿睡篮技术要求.pdf
- 中国国家标准 GB/T 46975-2025婴童用品 便携式婴儿睡篮技术要求.pdf
- 《GB/T 46975-2025婴童用品 便携式婴儿睡篮技术要求》.pdf
- 《GB/T 6675.14-2025玩具安全 第14部分:指画颜料要求和测试方法》.pdf
- GB/T 6675.14-2025玩具安全 第14部分:指画颜料要求和测试方法.pdf
- 中国国家标准 GB/T 6675.14-2025玩具安全 第14部分:指画颜料要求和测试方法.pdf
- 中国国家标准 GB/T 33772.3-2025质量评定体系 第3部分:印制板及层压板最终产品检验及过程监督用抽样方案的选择和使用.pdf
- 《GB/T 33772.3-2025质量评定体系 第3部分:印制板及层压板最终产品检验及过程监督用抽样方案的选择和使用》.pdf
原创力文档

文档评论(0)