17组文本聚类汇报.pptxVIP

下载本文档

0
0
约1.24万字
约 79页
2025-03-18 发布于山东
举报
版权申诉

17组文本聚类汇报.pptx

1、本文档共79页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

文本聚类Textclustering小组成员：孙伟良、孙成甲、王琰、杨舒棋、耿子强时间：2025/3/17

目录|CONTENTS文本聚类概述1文本预处理与文本表示2聚类算法3最新研究进展4Demo展示5

文本聚类概述1

监督学习：给定一些带标签的数据对（x，y），学习一个函数f：X→Y监督学习VS无监督学习1.1但是，如果只有数据，没有标签y？——无监督学习聚类是数据点的无监督分组可以用于知识发现此外，如果标注成本较高，只有部分数据有标签——半监督学习无监督学习：聚类，特征学习，概率密度估计，神经网络，……

聚类的定义文本聚类聚类是一种在数据中寻找相似性组（或者叫簇）的技术，即：把相似的数据样本聚到同一组中，把不相似的数据样本聚到不同的组中目标：组内数据相似度高，不同组间数据相似度低聚类的对象是文本的集合，给定一个含N个文本的集合，将其划分为K个子集，使目标函数达到最值1.2难点：由于无监督学习没有标签，文本如何高效表示、聚类算法如何设计、K值怎样选取等等都需要仔细考虑

文本聚类的应用与基本流程多文档自动文摘等NLP应用的预处理如多文档文摘系统Newsblaster将每天发生的重要新闻文本做聚类对搜索引擎结果聚类对用户感兴趣的文档聚类数字图书馆服务改善文本分类结果大数据中热点话题或事件的发现文档集合的自动整理应用基本流程1.3

文本聚类算法选择与结果评价指标基于划分预设各簇，进行迭代划分如K-means、K-medoids等基于层次分裂式和凝聚式基于密度如DBSCAN、OPTICS基于网格将数据空间划分为cell的网格基于模型如统计模型、神经网络算法选择结果评价指标1.4?

文本预处理与文本表示2

文本预处理文本预处理基于统计：N-gram、HMM等基于字符串匹配：正向最大匹配法等基于理解：专家系统、神经网络学习工具有jieba分词、SnowNLP、……Stopword——频繁出现或无明确意义的词，为了节约内存和提高效率，将它们去掉中文如：“了“，“的”英文如：“of”，“an”used-usebuying-buycars-carbetter-good分词去停用词词干提取2.1中文文本词语之间没有明显间隔，因此需要分词英文有时态、语态的变化，同一个词可能有不同的变形，如果将它们当做完全不同的词进行计算，则文本相似度低

文本表示文本表示模型2.2文本表示对文本进行数学建模，保留语义等需要提取的信息，是后续工作的基础词袋模型和N-gram模型主题模型词嵌入(wordembedding)与深度学习模型：Word2vec、GloVe、BERT等

文本表示模型2.3词袋模型与N-gram模型词袋模型是最基础的模型，具体想法是：将每个文档看成一袋子词，忽略每个词出现的顺序，这样每个文档可表示成一个高维向量，向量中的每一维代表一个词，而该维对应的权重则反映了这个词在文档中的重要程度。权重常用TF-IDF来计算TF：词频，单词t在文档d中出现的频率IDF：文档频率，衡量单词t对语义表达的重要程度N-gram模型：将连续出现的n个词所构成的词组（N-gram）也作为一个单独的特征放到向量表示中去

文本表示模型2.3主题模型主题模型用于从文本库中发现有代表性的主题(得到每个主题上词的分布特性)，并计算出每篇文章的主题分布词嵌入(wordembedding)与深度学习模型wordembedding是一类将词向量化模型的统称，核心思想是将每个词映射成低维空间（通常K=50~300维）上的一个稠密向量(DenseVector)如果一篇文档有N个词，就可以一个N×K维的矩阵表示，但这样表示过于底层，在应用中，还需加工出更高层的特征深度学习模型可以自动地进行特征工程，更好地对文本进行建模，抽取出一些高层的语义特征

特征降维2.4特征抽取尽可能保留语义信息的情况下，应用线性或者非线性映射方式将原始特征集映射到低纬度特征空间上，不需要先验知识，如矩阵奇异值分解SVD等特征选择需要先验知识，从特征集中筛选出有代表意义的子集，但对文本聚类来说非常棘手特征降维传统文本表示模型中，一般向量空间的维度都很高，且数据会比较稀疏，影响聚类算法性能，特征降维可以保留语义的前提下，剔除冗余项

文本相似度计算距离度量用向量的Lp范数即向量间的距离衡量相似性，距离值越小越相似如欧式距离、曼哈顿距离、切比雪夫距离相似性度量比较文本间的共同点，值越大越相似，常用Dice相关系数、扩展Jaccard系数等余弦相似度文本向量夹角的余弦值，被广泛使用2.5文本间相似性的衡量对聚类结果起决定性作用

聚类算法3基于密度、基于划分、基于层次、基于网格、基于模型

基于密度的聚类算法3.1

基于密度的聚类算法“在空间中寻找

您可能关注的文档

文档评论（0）

说明书库 + 关注: 实名认证

文档贡献者

24小时提供说明书查找服务。

咨询Ta 进入空间

1亿VIP精品文档

更多 >

17组文本聚类汇报.pptxVIP