Web文本聚类的研究与实现.pdfVIP

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web文本聚类的研究与实现.pdf

第 3o卷第3期 长春师范学院学报(自然科学版) 2011年 6月 V01.3O No.3 JournalofChangchunNormalUniversity(NaturalScience) Jun.2011 Web文本聚类的研究与实现 贾丙静,吴长勤,葛 华 (安徽科技学院理学院,安徽风阳 233100) [摘 要]Web文本聚类是使文本之间具有最大的簇内相似性,同时具有最小的簇间相似性,它是一 个将文本集分组的全自动处理过程。本文首先提出了Web文本聚类模型,然后对 web文本聚类关键 技术进行了深入的研究,讨论了分词、特征表示、特征选择和K—means算法等相关技术。最后,实 现了该文本聚类系统,对采集到的Web文本进行聚类 ,实验证明此算法具有很好的聚类结果。 [关键词]Web文本聚类;分词;特征表示;特征选择;K—means算法 [中图分类号】TP31 [文献标识码]A [文章编号]1008—178x(20l1)03—0026—04 web文本挖掘[卜]就是从web文档和web活动中发现、抽取感兴趣的潜在的有用模式和隐藏的信息的 过程 ,可以对web文档集合的内容进行总结、分类、聚类、关联分析以及趋势预测等。 其中web文本聚类技术是Web文本挖掘的一个重要研究领域。所谓聚类就是将物理的或抽象的对象集 合划分成为由类似的对象组成的多个簇的过程。由聚类所形成的簇是多个对象的集合,这些对象与同一个簇 中的对象彼此相似,与其他簇内的对象相异。而文本聚类的目的也是得到这样的一些文本簇,使得文本之间 具有最大的簇内相似性 (主题相关性),同时具有最小的簇间相似性 (主题无关性)。它是一个将文本集分组 的全 自动处理过程,是一种典型的无教师的机器学习问题。目前,Web文本聚类技术在信息检索、智能搜索 引擎和文本分类器的构造等领域都有着广泛应用。 本文首先提出了web文本聚类模型,并研究Web文本聚类的关键技术,同时结合雅虎网站这个应用背 景实现了Web文本聚类系统。该系统可以对收集的文本资料信息 自动进行聚类,从而更好地帮助人们获取 重要的知识。 1 web文本聚类模型 首先给出web文本聚类模型,该模型主要包括网页采集、网页净化、分词 3、特征选取、权值计算、K 均值聚类、聚类结果评价几个模块。该系统模型具体工作流程如图1所示。 图1 Web文本聚类模型 [收稿日期】2011—03—22 [基金项目]安徽科技学院引进人才基金项目 (ZRC2008176);省教育厅 自然科学基金项 目 (KJ2009B121Z)。 [作者简介]贾丙静 (1982一),女,山东曹县人,安徽科技学院理学院助教,硕士,从事Web日志挖掘研究。 · 26 · 1.1 数据采集与净化 如果要实现Web文本聚类,首先得获取网页,对网页数据进行预处理,然后才能对处理后的Web文本 进行聚类。Web文本获取的主要是用web文本抓取器,又称为网络蜘蛛。网络蜘蛛是通过网页的链接地址 来寻找网页,从网站某一个页面 (通常是首页)开始,读取网页的内容,找到在网页中的其他链接地址 ,然 后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。 采集的网页包含的内容是丰富多彩色的,除了正文文本外,还有广告、图像、声音等多媒体信息。而我 们进行聚类需要纯文本信息,所以在聚类之前首先要对网页净化。也就是去除无用的HTML标记,提取出网 页文本标题和文本正文并以txt格式保存为纯文本格式。 1.2 文本预处理 文本预处理就是把文本表示为计算机可以识别的形式。首先选取词作为特征项进行分词处理,然后计算 权重,以空间向量模式将文本表示成欧氏空间的一个向量。这样输入的文档集合变成了一个矩阵,每一行代 表一个文档,每一列代表这个文档中的某个特征项。但是表示文本的矩阵维数特别大,所以最后通过特征选 择来进行降维,从文本中抽取能代表文本内容的关键词,方便我们进行文本聚类。 1.3 文本聚类 对于得到的文档一词频矩阵,结合具体的聚类算法,最终得到潜在的知识或者

文档评论(0)

kfigrmnm + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档