孙佰贵数据挖掘.doc

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
孙佰贵数据挖掘.doc

数据挖掘课程报告 题目:文本聚类算法的研究 学号姓名:孙佰贵 目录 TOC \o 1-5 \h \z 摘耍: 3 HYPERLINK \l bookmark4 \o Current Document \h 一、 应用场景和意义 3 HYPERLINK \l bookmark6 \o Current Document \h 二、 现状分析 3 HYPERLINK \l bookmark8 \o Current Document \h 国外现状 3 HYPERLINK \l bookmark10 \o Current Document \h 国内现状 4 HYPERLINK \l bookmark12 \o Current Document \h 三、 技术挑战分析与解决方案 4 HYPERLINK \l bookmark14 \o Current Document \h 中文文本聚类模型 4 HYPERLINK \l bookmark16 \o Current Document \h 1.1文本特征建立与提取 4 HYPERLINK \l bookmark18 \o Current Document \h 1.2文本相似度计算 5 HYPERLINK \l bookmark20 \o Current Document \h 1.3文木聚类 5 HYPERLINK \l bookmark22 \o Current Document \h 文木特征建立与提取方法介绍 5 HYPERLINK \l bookmark24 \o Current Document \h 文本相似度计算方法介绍 5 HYPERLINK \l bookmark26 \o Current Document \h 文本聚类方法介绍 6 4.10PTICS 算法 6 4.2K-Means 算法 7 HYPERLINK \l bookmark28 \o Current Document \h 四、 系统设计与实现 7 摘要: 文木聚类是数据挖掘和信息检索的重要内容。文本聚类通过对文木内容进行分析,将原始的 文木集分成若干个簇,同时要求簇内的文木相似性尽可能大,而簇Z间的文本相似性尽可能 小。耍进行分类必须耍有三个步骤:1?对文本数据进行数学描述2.采用相似度统计方法进行 相似度的统计3.采用聚类算法进行聚类。木文将对以上三个步骤中常用的算法进行比较研究。 一、应用场景和意义 随着互联网的迅速发展,以及个人电脑的普及,网络上的信息量以及搜索量正以指数级 增长,这给信息检索和数据挖掘带來了严峻的考验。尤其是网络技术迅速发展的今天,人们 越來越感受到了大量数据信息的冲击,而这些数据大部分都是以文本形式存在。冇统计数据 显示,人们日常生活屮所接触到的信息有80%左右是以文木的形式存在的。这样文木挖掘就 成了数据挖掘的一个重要分支。而文本聚类乂是文本挖掘的主要方法和手段之一。 文本聚类是信息检索以及数据挖掘的重要方面,其口标是帮助人们口动检索文本,判別 文木属性类别,在文本中快速、准确地寻找有用信息。研究者往往对如何提高聚类算法的性 能费尽心思,因为性能的好坏通常是衡量聚类算法优劣的重要标准。然而很多时候更为本质 的问题在于如何准确地对文本进行科学的数学描述、如何准确地计算文本间的相似度,以及 如何准确地进行文木聚类。文木聚类还可以用来改善搜索引擎,将搜索结果自动聚类,提供 给用户更加优质的服务。比较著名的有Yahoo、vivisimo以及infonetware等,这些系统的一 个公共特征是允许用八输入搜索关键词,然后対搜索得到的结果进行聚类分析,并输出系统 对各个不同类别的简要描述,从而达到缩小检索范围的效果,让川户只需要关注他比较感兴 趣的主题。文本聚类还可以应用于诸如情报系统,图书管理系统等文本密集的系统,来帮助 人们自能地进行文本聚类。 在文本聚类的应用方面,最初,人们是研究利用文本聚类來提高信息检索系统的准确率 或召回率,同时文本聚类也是发现关联文本的有效手段。如,哥伦比亚大学开发的多文档自 动文摘系统Newsblastero Newsblaster将每天发生的重要的新闻进行聚类处理,并对同主题 的文木进行兀余消除、信息融合、文木生成等处理,从而生成一篇简明扼要的摘要文档。 在本文中,我对文本聚类技术作了系统性的研究。分析了当而文本聚类常用的一些特征 描述、相似度计算以及文本聚类算法,并作了一些总结。最后,简单介绍下我在研究过程屮 实现的一个简易的文木聚类系统,从这个实现例子中说明常用方法的一些局限性。 1、现状分析 上面己经捉到了文本聚类是文本挖掘的一个重耍方面。 1 ?国外现状 国外对文木聚类的研究比较早,许多技术已

文档评论(0)

ggkkppp + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档