《自然语言处理技术》课件——3.2.3-2文本聚类常用算法.pptxVIP

《自然语言处理技术》课件——3.2.3-2文本聚类常用算法.pptx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

熟悉文本分类与聚类?深入文本进阶处理

文本挖掘简介文本分类与聚类的步骤

用户可获得的信息包含技术资料、商业信息、新闻报道、娱乐资讯等,可构成一个异常庞大的具有异构性、开放性等特性的分布式数据库。结合人工智能研究领域中的NLP技术,从数据挖掘中派生出了文本挖掘这个新兴的数据挖掘研究领域。文本挖掘简介文本挖掘概念文本分类常用算法文本聚类常用算法

文本聚类常用算法文本聚类思想:对无类别标识的文本集合进行分析。实质:就是将相似度高的样本聚为一类,并且期望同类样本之间的相似度尽可能高,不同类别之间的样本相似度尽可能低。

聚类算法基于划分的聚类算法基于层次的聚类算法基于密度的聚类算法基于模型的聚类算法文本聚类常用算法

基于划分的聚类算法基于划分的聚类算法思想:给定一个有n个记录的数据集,将数据集划分为K个分组,每一个分组称为一个簇。对于给定的K个分组,同一个分组内的数据记录距离越近越好,不同分组之间的距离则越远越好。方法:K-Means、Single-Pass增量聚类算法、K-Medoids和CLARANS基于随机选择的聚类算法(ClusteringAlgorithmbasedonRandomizedSearch,CLARANS)。

基于划分的聚类算法基于划分的聚类算法——K-Means优化目标:

基于划分的聚类算法基于划分的聚类算法——K-Means输入样本集合及聚类簇数。从样本集中随机选择k个样本点作为k个簇中心。计算每个样本点到每个簇中心的距离。按照距离远近将每个样本点归入相应的簇内。更新每个簇的中心。重复步骤2~5,直至簇中心不再变化。输出聚类结果。

基于层次的聚类算法基于层次的聚类算法思想:将样本集合合并成凝聚度更高或分裂成更细致的子样本集合,最终样本集合形成一棵层次树。方法:变色龙算法、嵌套层次聚类算法(AgglomerativeNesting,AGNES)、基于代表的聚类算法(ClusteringUsingRepresentatives,CURE)。

基于层次的聚类算法基于层次的聚类算法基本过程:

基于层次的聚类算法基于层次的聚类算法输入样本集合、对聚类簇函数做出规定,给出聚类的簇数。将每个样本点作为单独的一簇。计算任何两个簇之间的距离。按照距离最近原则合并簇。若当前聚类簇数未到达规定的聚类簇数,则返回步骤3,否则聚类结束。输出聚类结果。

基于密度的聚类算法基于密度的聚类算法思想:找出密度较高的样本点,再将周围相近的密度较高的样本点连成一片,最后形成各类簇。方法:具有噪声的基于密度的聚类(Density-BasedSpatialClusteringofApplicationswithNoise,DBSCAN)、基于排序点识别的聚类结构(OrderingPointstoIdentifytheClustering,OPTICS)。

基于密度的聚类算法基于密度的聚类算法——DBSCAN:

基于密度的聚类算法基于密度的聚类算法——DBSCAN输入样本集合、初始化距离参数,数目参数MinPts。确定核心对象集合。在核心对象集合中,随机选择一个核心对象作为种子。依据簇划分原则生成一个簇,并更新核心对象集合。若核心对象集合为空,则算法结束,否则返回步骤3。输出聚类结果。

基于模型的聚类算法基于模型的聚类算法思想:假设每个类为一个模型,寻找与该模型拟合最好的数据。方法:基于概率(概率生成模型):高斯混合模型(GaussianMixtureModels,GMM)基于神经网络

基于模型的聚类算法基于模型的聚类算法——GMM:

基于模型的聚类算法基于模型的聚类算法——GMM假设空间概率分布由k个高斯分布混合组成,初始化高斯分布,即初始化混合系数、均值和方差。计算各混合生成的后验概率。通过EM算法计算参数更新。重复2、3步骤,直到满足停止条件。将样本按照最大化划入相应的簇中,最终得到k个聚类。

文本分类与聚类的步骤文本分类与聚类的步骤:数据准备:文本数据一般是非结构化的数据,这些数据或多或少会存在数据缺失、数据异常、数据格式不规范等情况,这时需要对其进行预处理数据清洗、数据转换、数据标准化、缺失值和异常值处理等,贯彻高质量发展精神

文本分类与聚类的步骤文本分类与聚类的步骤:特征提取:BOW模型:拥有过大的特征维数,数据过于稀疏TF、TF-IDF:运用统计的方法,将词汇的统计特征作为特征集,但效果与BOW模型相差不大n-gramWord2Vec

文本分类与聚类的步骤文本分类与聚类的步骤:模型选择与训练:对处理好的数据进行分析,选择适合用于训练的模型判断数据中是否存在类标签有:归为监督学习问题无:划分为无监督学习问题

文本分类与聚类的步骤文本分类与聚类的步骤:模型测试:通过测试数据可以对模型进行验证,分析产生误差的原因数据来源、特征、算法等寻找在

您可能关注的文档

文档评论(0)

青柠职教 + 关注
实名认证
服务提供商

从业10年,专注职业教育专业建设,实训室建设等。

1亿VIP精品文档

相关文档