孙佰贵数据挖掘.doc

下载文档

4
0
约9.7千字
约 16页
2019-01-27 发布于广东
举报
版权申诉
保障服务

孙佰贵数据挖掘.doc

1、本文档共16页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

孙佰贵数据挖掘.doc

数据挖掘课程报告题目：文本聚类算法的研究学号姓名：孙佰贵目录 TOC \o 1-5 \h \z 摘耍: 3 HYPERLINK \l bookmark4 \o Current Document \h 一、应用场景和意义 3 HYPERLINK \l bookmark6 \o Current Document \h 二、现状分析 3 HYPERLINK \l bookmark8 \o Current Document \h 国外现状 3 HYPERLINK \l bookmark10 \o Current Document \h 国内现状 4 HYPERLINK \l bookmark12 \o Current Document \h 三、技术挑战分析与解决方案 4 HYPERLINK \l bookmark14 \o Current Document \h 中文文本聚类模型 4 HYPERLINK \l bookmark16 \o Current Document \h 1.1文本特征建立与提取 4 HYPERLINK \l bookmark18 \o Current Document \h 1.2文本相似度计算 5 HYPERLINK \l bookmark20 \o Current Document \h 1.3文木聚类 5 HYPERLINK \l bookmark22 \o Current Document \h 文木特征建立与提取方法介绍 5 HYPERLINK \l bookmark24 \o Current Document \h 文本相似度计算方法介绍 5 HYPERLINK \l bookmark26 \o Current Document \h 文本聚类方法介绍 6 4.10PTICS 算法 6 4.2K-Means 算法 7 HYPERLINK \l bookmark28 \o Current Document \h 四、系统设计与实现 7 摘要: 文木聚类是数据挖掘和信息检索的重要内容。文本聚类通过对文木内容进行分析，将原始的文木集分成若干个簇，同时要求簇内的文木相似性尽可能大，而簇Z间的文本相似性尽可能小。耍进行分类必须耍有三个步骤：1?对文本数据进行数学描述2.采用相似度统计方法进行相似度的统计3.采用聚类算法进行聚类。木文将对以上三个步骤中常用的算法进行比较研究。一、应用场景和意义随着互联网的迅速发展，以及个人电脑的普及，网络上的信息量以及搜索量正以指数级增长，这给信息检索和数据挖掘带來了严峻的考验。尤其是网络技术迅速发展的今天，人们越來越感受到了大量数据信息的冲击，而这些数据大部分都是以文本形式存在。冇统计数据显示，人们日常生活屮所接触到的信息有80%左右是以文木的形式存在的。这样文木挖掘就成了数据挖掘的一个重要分支。而文本聚类乂是文本挖掘的主要方法和手段之一。文本聚类是信息检索以及数据挖掘的重要方面，其口标是帮助人们口动检索文本，判別文木属性类别，在文本中快速、准确地寻找有用信息。研究者往往对如何提高聚类算法的性能费尽心思，因为性能的好坏通常是衡量聚类算法优劣的重要标准。然而很多时候更为本质的问题在于如何准确地对文本进行科学的数学描述、如何准确地计算文本间的相似度，以及如何准确地进行文木聚类。文木聚类还可以用来改善搜索引擎，将搜索结果自动聚类，提供给用户更加优质的服务。比较著名的有Yahoo、vivisimo以及infonetware等，这些系统的一个公共特征是允许用八输入搜索关键词，然后対搜索得到的结果进行聚类分析，并输出系统对各个不同类别的简要描述，从而达到缩小检索范围的效果，让川户只需要关注他比较感兴趣的主题。文本聚类还可以应用于诸如情报系统，图书管理系统等文本密集的系统，来帮助人们自能地进行文本聚类。在文本聚类的应用方面，最初，人们是研究利用文本聚类來提高信息检索系统的准确率或召回率，同时文本聚类也是发现关联文本的有效手段。如，哥伦比亚大学开发的多文档自动文摘系统Newsblastero Newsblaster将每天发生的重要的新闻进行聚类处理，并对同主题的文木进行兀余消除、信息融合、文木生成等处理，从而生成一篇简明扼要的摘要文档。在本文中，我对文本聚类技术作了系统性的研究。分析了当而文本聚类常用的一些特征描述、相似度计算以及文本聚类算法，并作了一些总结。最后，简单介绍下我在研究过程屮实现的一个简易的文木聚类系统，从这个实现例子中说明常用方法的一些局限性。 1、现状分析上面己经捉到了文本聚类是文本挖掘的一个重耍方面。 1 ?国外现状国外对文木聚类的研究比较早，许多技术已