毕业设计（论文）-基于相似度的文本聚类方法研究.doc

下载文档 降价啦

6
0
约1.36万字
约 26页
2017-08-12 发布于安徽
举报
版权申诉
保障服务

毕业设计（论文）-基于相似度的文本聚类方法研究.doc

1、本文档共26页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

本科毕业设计论文题目：基于相似度的文本聚类方法研究专业：计算机科学与技术班级学号：姓名：指导教师：教师职称：协助指导/联系教师：教师职称：摘要随着计算机的广泛应用和Internet 的普及，人们所面对的信息量急剧增长。信息量的增加给人们带来方便，可同时也带来了一个信息过量的问题。面对浩如烟海、纷繁芜杂的信息，人们越来越希望能够在对已有的大量数据分析的基础上进行科学研究、商业决策或企业管理。在现实世界中，文本是信息最重要的载体，事实上，研究表明信息有80%包含在文本文档中。面对大量无序的文本数据，为了便于工作的展开，人们经常遇到的一个问题就是，如何对文本进行分类、比较，评估文本的相关性和重要性，以及发现众多文本的模式与趋势。采用文本分类可以实现对大量文本的自动分类。文本分类是在分析文本内容的基础上将多篇文本分成一个或多个类别。财经类网页是我们日常生活中关注的主要内容。本文以财经类文本的聚类实现为研究实例，提出基于文本相似度向量的聚类方法。关键词：相似度，聚类，财经目录摘要 2 一、绪论 4 1.1问题的提出 4 1.2 课题开发背景 5 1.3 系统设计思想 7 二、系统开发工具和开发平台 8 2.1 面向对象语言 8 2.2 关于VC++ 6.0 11 2.2.1编辑器方面的新特性 12 2.2.2、编译器、连接器和调试器方面的改进 13 2.3 系统运行环境 13 2.3.1软件运行平台 13 2.3.2硬件运行平台 13 三、系统分析 14 3.1 文本建模方法 14 3.2 文本聚类算法分析 15 3.2.1 划分聚类算法 15 3.2.2 层次聚类算法 16 3.2.3 基于密度的聚类算法 16 3.2.4 基于模型的聚类算法 16 3.2.5 基于网格的聚类算法 17 四、系统设计与实现 18 4.1 系统结构设计 18 4.2 界面设计 18 4.3 网页自动获取的实现 20 4.4 网页分析聚类的实现 21 五、系统测试 22 5.1 测试 22 5.2 聚类效果分析 24 结论 26 致谢 27 参考文献 28 一、绪论 1.1问题的提出当今是一个信息爆炸的时代，特别是随着Internet的飞速发展，各行业都已经在网络上找到了自己的位置，人们越来越有可能通过网络来获得最新的咨询信息，网络已成为继报纸、电视之后的第3种媒体，网络改变了我们的生活，电子信息化给人们的阅读带来了革命性的改变。我们每个人都有通过阅读获得信息的习惯，特别是一些对咨询信息需求比较紧迫的个人和企业，更加是需要每天通过大量的阅读来寻找和补充自己需要的信息。但是，网上信息之多已经大大超过来我们的每天日常的阅读能力，因此为了给人们提供辅助阅读的工具，文本分类技术的研究已经成为解决该问题的重要捷径之一。特别的是在信息检索领域文本分类和自动摘要技术的发展更是不可缺少。人们面对浩瀚的信息海洋，从大规模文本中快速获取所需要信息的要求，日益变得迫切．但是传统的搜索引擎会返回大量的文档，这些文档中只有极少数对用户来说是有用的．对这些文档若是采用顺序组织的方法，用户查找到所需要的文档会花费较长的时间．聚类分析作为一种文档组织方法可以帮助人们从搜索引擎返回的文档中快速地查找到所需要的文档．但是文本聚类有效性的高低会直接影响到用户查找到所需要信息的速度，如对文档进行随机聚类相对于顺序组织方法来说根本不会提高速度，相反还会降低．所以，提高文本聚类的有效性一直是文本聚类领域的研究者追求的目标之一 1.2 课题开发背景随着互联网的出现，大量的文本信息如潮水般不断涌现，网络已经成为一个庞大而杂乱无章的桌面图书馆。对海量的文献人们迫切需要能够自动实现文本的分类处理，在节省时间的同时更好的定位查找自己需要的文献。有效的信息检索需要有良好的索引和文本内容概括，文本聚类便是解决这类问题的一种手段。文本聚类就是将一个训练文献集分成若干称为聚类簇（cluster）的子集，每个聚类簇中的成员之间具有较大的相似性，而聚类簇之间的文本具有较小的相似性。文本分类一般是通过统计方法或知识工程方法来实现的。知识工程方法需要编制大量的推理规则，因此其开发费用相当昂贵。相比之下，统计方法由于其简单的机制，为大多数实用文本分类系统所采用。在基于统计的各种分类方法中,它们的共同点是从文本中提取词汇信息，并以特征向量的形式来表示文本。基于以向量来表示的文本，聚类算法有很多种，本文是通过在特征向量中选取代表点来完成聚类的。在日常生活、生产、科研、工作中，经常要对被研究