- 1、本文档共60页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
改进CURE算法在知识点文本聚类中的应用研究-计算机科学与技术专业论文
Dissertation Submitted to HeBei University of Technology
for
The Master Degree of Computer Science and Technology
IMPROVEMENT OF CURE ALGORITHM AND ITS APPLICATION IN KNOWLEDGE TOPIC TEXT CLUSTERING
By Zhang Yuemei
Supervisor: A.P. Xu Zhihong
November 2014
原创性声明
本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行研究工作所 取得的成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含任何 他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研 究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本学位论文原 创性声明的法律责任由本人承担。
学位论文作者签名: 日期:
关于学位论文版权使用授权的说明
本人完全了解河北工业大学关于收集、保存、使用学位论文的规定。同意如下各 项内容:按照学校要求提交学位论文的印刷本和电子版本;学校有权保存学位论文的 印刷本和电子版,并采用影印、缩印、扫描、数字化或其它手段保存论文;学校有权 提供目录检索以及提供本学位论文全文或者部分的阅览服务;学校有权按有关规定向 国家有关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前提下,学 校可以适当复制论文的部分或全部内容用于学术活动。
(保密的学位论文在解密后适用本授权说明)
学位论文作者签名: 日期:
导 师 签 名: 日期:
摘要
摘
要
随着网络的快速发展,网络学习资源越来越丰富,人们开始通过互联网学习感兴
趣的知识,代替传统的学习模式。虽然网络学习资源丰富,但是由于学习网站大量存 在,且相互之间对于知识层次结构不同,学习资源错综复杂。同时网络中的知识内容 大多以无结构或半结构的文本形式存在,对于知识内容的分析也成为难点。
本文通过文本聚类技术实现将属于同一知识点类别的文本聚集成同一类,在学习 者学习某门课程的知识点时将相关的知识点推荐给学习者,实现节省学习者学习时 间,提高学习者学习效率的目的。以计算机专业知识点文本作为研究对象,研究知识 点文本聚类技术,涉及知识点文本的获取、知识点文本的预处理和聚类算法研究等技 术,其中重点对文本聚类的相关算法进行了研究,并且针对知识点文本的特殊性,对 文本聚类算法进行了改进。
研究的主要内容如下:
(1) 针对知识点文本的获取,采用 Heritrix 开源软件,通过对 Heritrix 进行扩展, 主要包括定制 Extractor、扩展 FrontierScheduler、多线程抓取网页、取消 robot.txt 的 访问,从而实现网页的快速高效抓取。
(2) 对于知识点文本的预处理,通过对基于 Lucene 的第三方开源软件 mmseg4j
的扩展,主要包括扩展词库与停用词的处理,实现针对知识点文本的高效率分词。
(3) 对知识点文本的聚类,通过分析知识点文本的特点,针对 TF-IDF 计算词条权 值的方法进行了改进,并且针对知识点文本的聚集性,将 CURE 算法中初始选择簇中 心点的方式结合密度法进行了改进。实验证明本文提出的聚类算法的改进方法提高了 聚类算法的效率。
关键字:Heritrix 中文分词 文本聚类 mmse4j CURE 算法
I
PAGE
PAGE IV
ABSTRACT
With the rapid development of network, there are abundant learning resources for us on the internet. People started to learn interesting knowledge on the internet, instead of the traditional learning mode. Although network resources are rich, however there are so many learn websites with complicated knowledge and different level of knowledge. In the mean time the knowledge resource on the network exists in unorganized or half organized text form, and it makes the analysis of knowledge content more
您可能关注的文档
- 改向滚筒疲劳寿命的有限元分析及优化设计-材料加工工程专业论文.docx
- 改善FEK显示驱动电路中高灰阶显示功能实现方法的研究-微电子学与固体电子学专业论文.docx
- 改善DAC线性特性的方法研究-电路与系统专业论文.docx
- 改善OFDM系统中峰均比技术的研究与设计-电子与通信工程专业论文.docx
- 改善P2P流媒体系统服务能力的架构和机制研究-通信与信息系统专业论文.docx
- 改善中频逆变器输出特性的研究-电力电子与电力传动专业论文.docx
- 改善双积分球测量系统精度的方法研究-生物医学工程专业论文.docx
- 改善小学低年级学生拖延行为的教学设计研究-教育技术学专业论文.docx
- 改善微孔发泡注塑成型制品表面质量的研究-材料工程专业论文.docx
- 改善收入分配格局扩大我国国内需求-国民经济学专业论文.docx
- 2025年安徽工商职业学院单招职业技能测试题库带答案(典型题).docx
- 2025年洛阳科技职业学院单招职业技能测试题库带答案(新).docx
- 2025年荆门职业学院单招职业技能测试题库及答案(易错题).docx
- 2025年宣化科技职业学院单招职业技能测试题库(精练).docx
- 2025年包头职业技术学院单招职业技能测试题库带答案(新).docx
- 2025年江西工商职业技术学院单招职业技能测试题库带答案(精练).docx
- 2025年黑龙江农业经济职业学院单招职业技能测试题库精编.docx
- 2025年山东艺术设计职业学院单招职业技能测试题库带答案(基础题).docx
- 2025年陕西工商职业学院单招职业技能测试题库带答案(突破训练).docx
- 2025年承德护理职业学院单招职业技能测试题库【word】.docx
文档评论(0)