Web文本聚类的研究与实现.pdfVIP

下载本文档

4
0
约 4页
2015-08-31 发布于湖北
举报
版权申诉

Web文本聚类的研究与实现.pdf

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web文本聚类的研究与实现.pdf

第 3o卷第3期长春师范学院学报(自然科学版) 2011年 6月 V01．3O No．3 JournalofChangchunNormalUniversity(NaturalScience) Jun．2011 Web文本聚类的研究与实现贾丙静，吴长勤，葛华 (安徽科技学院理学院，安徽风阳 233100) [摘要]Web文本聚类是使文本之间具有最大的簇内相似性，同时具有最小的簇间相似性，它是一个将文本集分组的全自动处理过程。本文首先提出了Web文本聚类模型，然后对 web文本聚类关键技术进行了深入的研究，讨论了分词、特征表示、特征选择和K—means算法等相关技术。最后，实现了该文本聚类系统，对采集到的Web文本进行聚类，实验证明此算法具有很好的聚类结果。 [关键词]Web文本聚类；分词；特征表示；特征选择；K—means算法 [中图分类号】TP31 [文献标识码]A [文章编号]1008—178x(20l1)03—0026—04 web文本挖掘[卜]就是从web文档和web活动中发现、抽取感兴趣的潜在的有用模式和隐藏的信息的过程，可以对web文档集合的内容进行总结、分类、聚类、关联分析以及趋势预测等。其中web文本聚类技术是Web文本挖掘的一个重要研究领域。所谓聚类就是将物理的或抽象的对象集合划分成为由类似的对象组成的多个簇的过程。由聚类所形成的簇是多个对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇内的对象相异。而文本聚类的目的也是得到这样的一些文本簇，使得文本之间具有最大的簇内相似性 (主题相关性)，同时具有最小的簇间相似性 (主题无关性)。它是一个将文本集分组的全自动处理过程，是一种典型的无教师的机器学习问题。目前，Web文本聚类技术在信息检索、智能搜索引擎和文本分类器的构造等领域都有着广泛应用。本文首先提出了web文本聚类模型，并研究Web文本聚类的关键技术，同时结合雅虎网站这个应用背景实现了Web文本聚类系统。该系统可以对收集的文本资料信息自动进行聚类，从而更好地帮助人们获取重要的知识。 1 web文本聚类模型首先给出web文本聚类模型，该模型主要包括网页采集、网页净化、分词 3、特征选取、权值计算、K 均值聚类、聚类结果评价几个模块。该系统模型具体工作流程如图1所示。图1 Web文本聚类模型 [收稿日期】2011—03—22 [基金项目]安徽科技学院引进人才基金项目 (ZRC2008176)；省教育厅自然科学基金项目 (KJ2009B121Z)。 [作者简介]贾丙静 (1982一)，女，山东曹县人，安徽科技学院理学院助教，硕士，从事Web日志挖掘研究。 · 26 · 1．1 数据采集与净化如果要实现Web文本聚类，首先得获取网页，对网页数据进行预处理，然后才能对处理后的Web文本进行聚类。Web文本获取的主要是用web文本抓取器，又称为网络蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面 (通常是首页)开始，读取网页的内容，找到在网页中的其他链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。采集的网页包含的内容是丰富多彩色的，除了正文文本外，还有广告、图像、声音等多媒体信息。而我们进行聚类需要纯文本信息，所以在聚类之前首先要对网页净化。也就是去除无用的HTML标记，提取出网页文本标题和文本正文并以txt格式保存为纯文本格式。 1．2 文本预处理文本预处理就是把文本表示为计算机可以识别的形式。首先选取词作为特征项进行分词处理，然后计算权重，以空间向量模式将文本表示成欧氏空间的一个向量。这样输入的文档集合变成了一个矩阵，每一行代表一个文档，每一列代表这个文档中的某个特征项。但是表示文本的矩阵维数特别大，所以最后通过特征选择来进行降维，从文本中抽取能代表文本内容的关键词，方便我们进行文本聚类。 1．3 文本聚类对于得到的文档一词频矩阵，结合具体的聚类算法，最终得到潜在的知识或者