基于DBSCAN算法文本聚类探究.docVIP

下载本文档

33
0
约 7页
2017-06-10 发布于福建
举报
版权申诉

基于DBSCAN算法文本聚类探究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于DBSCAN算法文本聚类探究

基于DBSCAN算法文本聚类探究　　摘要：提出使用文本相似度算法与DBSCAN聚类算法相结合的方法对文本进行聚类，实现对文本的管理。首先对文本进行特征提取和分词操作，在分词过程中会产生大量的特征词汇，而有些特征词汇对文本特征的表达并无实际意义。因此，在文本特征提取过程中根据特征词汇对文本特征表达的贡献度进行取舍，以提高文本聚类的效率和准确性。利用TF-IDF方法对特征词汇进行加权，并且对文本进行相似度计算，将相似度低于阈值的文本作为孤立点进行处理。利用DBSCAN算法对文本进行聚类，将相似的文本聚为一类关键词关键词：文本聚类；DBSCAN聚类；文本相似度；文本处理 DOIDOI：10.11907/rjdk.161915 中图分类号：TP312 文献标识码：A 文章编号：1672-7800（2016）008-0036-03 0 引言互联网作为开放共享的信息平台，蕴含着海量的文本信息资源，而这些海量文本信息资源通常在互联网上是无序存放的，存在着各种各种冗余的信息，因此需要采用相关技术来组织和管理这些文本信息。文本分类和聚类是文本信息管理的重要方法，文本聚类是文本挖掘的重要组成部分，越来越受到关注。文本聚类广泛应用于文档自动整理、组织管理等，可以对搜索引擎搜索结果分类进行优化。此外，也可以应用于推荐系统中，根据用户所感兴趣的文档进行聚类，发现用户的兴趣模式，从而挖掘出用户新的感兴趣的资源。本文利用DBSCAN算法来对文本进行聚类，DBSCAN算法是一种基于密度的聚类算法，该算法通过过滤低密度的区域，发现稠密的区域[1]。本文文本处理的模型如图1所示，在文本预处理阶段，需要对文本表示方式转换为数值数据的表达形式，通过对文本进行分词和特征项提取，使用TF-IDF对特征词汇进行加权，利用DBSCAN聚类算法将相似的文本聚为一类 1 文本预处理 1.1 中文文档分词处理文本预处理首先需要对文本进行分词操作，中文文档使用词典和砌词的方式进行分词，分词过程由计算机自动实现。由于文档中存在一些无用的词汇或符号等，需要在分词过程中去除这些无用的词语及符号，比如文档中的标点符号、结构助词等，这些词汇对文本特征表示并无太大的关联，因此需要过滤掉。同时，中文词汇中存在同义词问题，需要对同义词进行合并操作，比如“歌唱”和“歌颂”属于同义词，可以合并为“歌唱” 1.2 文本特征提取文本经过分词处理后会出现大量的特征词汇，特征词汇可以是词组，也可以是词条。这些特征词汇中相当部分对文本特征表示并无太大贡献，因此需要对这些特征词汇进行取舍，以提高聚类的效率和准确性。特征词汇的提取依据主要是由文本特征表达的贡献度来决定，特征词汇的贡献度越高，说明这个特征词汇就越能表达文本特征。特征词汇的贡献度受多个因素影响，主要影响因素是特征词汇出现的频率、文本的主题和特征增量 2 DBSCAN聚类算法分析与实现 2.1 DBSCAN聚类算法分析文本聚类是按照聚类假设：同类文档相似度大，对于不是同类的文档，它们的相似度小[3]。作为一种无监督的机器学习方法，聚类由于不需要训练样本的过程，不需要预先对文档手工标注类别，因此具有一定的灵活性和较高的自动化处理能力，已经成为对文本信息进行有效组织、摘要和导航的重要手段[4]。DBSCAN算法是一种基于密度的聚类算法，其主要目的是过滤低密度的样本区域，从而发现稠密的样本区域。与传统的基于层次聚类和划分聚类的凸形聚类簇不同，该算法可以发现任意形状的聚类簇[5]。与K-means相比较，不必输入划分的聚类个数，聚类簇的形状可以是任意形状的空间聚类，可以在需要时输入过滤噪声的参数，DBSCAN中的定义如下：输出：所有生成的簇，达到密度要求算法1：Repeat 算法2：从数据集S中取出一个没有处理过的对象算法3：IF取出的对象是核心对象 THEN 寻找全部从该对象密度可达的对象，形成一个簇算法4：ELSE 取出的对象不是核心对象，跳出本次循环，继续寻找下一个对象算法5：UNTIL 所有的对象都被处理 2.2 DBSCAN聚类算法对文本聚类的实现从文档集中抽取一篇未被处理的文档p（p代表从文档集抽出的一篇文档），并标示文档p为已处理，先对文档p进行分词和特征提取。在特征提取过程中需要对特征词汇进行去噪处理，从而得到特征词汇集合。利用TF-IDF方法对文档集中的文档（包括文档p）分别对这些特征词汇集合进行加权操作，得到一个数据矩阵。利用文本相似度算法计算文档p与文档集中其它文档的相似度，如果与文档p相似度大于或等于设定阈值，就存放到文档p的领域中，直到数据矩阵全部数据处理完毕。判断p的领域中文档数量是否大于设定的Mi