网站大量收购独家精品文档,联系QQ:2885784924

大数据-文本聚类组2.pdfVIP

  1. 1、本文档共64页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

文本聚类汇报

汇报人:欧林堉韩文轩钱驰骋王博为胡玉麟

导师:张华平

时间:2022/4/17

目1文本聚类概述

|

2文本预处理和文本表示

C

O

N

3文本聚类

T

E4前沿进展

N

T

S

5Demo展示

1文本聚类概述

1概述——基本概念

聚类:根据数据的不同特征,将其划分为不同的数据

类。

44

1概述——基本概念

文本聚类:把相似度高的文本聚到一类,相似度低的

文本分到不同的类。

例如:同为小说的《复活》和《战争与和平》相似度应该较

高。而《工科数学分析》和《红与黑》的相似度应该较低。

55

1聚类——聚类的发展

聚类算法是最早被用于模式识别及数据挖掘任务的方法之一,

并且被用来研究各种应用中的大数据库,因此如今用于大数据的聚

类算法受到越来越多的关注。

66

1文本聚类与文本分类

文本聚类文本分类

文本聚类是一种无监督学文本分类是一种监督学习,

习,数据不带标签。将相数据带有标签,应用场景

似的文本分为同一“簇”。评论情感分析,新闻极性

文本聚类比较适合用于大分析,新闻分类等等。

数据中热点话题或事件的

发现。

77

1

1概述——应用场景

数字图书馆服务文章推荐

通过SOM神经网络等方法,可以将发现用户的兴趣模式并用于信息过滤和

高维空间的文档拓扑保序地映射到信息主动推荐等服务

二维空间,使得聚类结果可视化。

热点追踪其他

与文本分类不同,文本聚类不需要知搜索引擎联想功能,相关资源推荐推

道每个类别是什么,更适合网络热点荐,改善文本分类的结果。

追踪。

88

1概述——应用场景

多文档自动文摘:Newsblaster:

文档评论(0)

说明书库 + 关注
实名认证
文档贡献者

24小时提供说明书查找服务。

1亿VIP精品文档

相关文档