第5讲文本聚类技术-orsci--或科学.ppt

位置赋权 姜维.《文本分析与文本挖掘》.科学出版社.2018 向量中增加位置权重 姜维.《文本分析与文本挖掘》.科学出版社.2018 词义聚类技术 第一步,向量构建 分词 词干还原 去掉停用词 收集上下文 构建向量 姜维.《文本分析与文本挖掘》.科学出版社.2018 第二步,向量聚类 构造向量空间 向量的表示 余弦相似度 聚类 举例: “闪存”、“U盘”;计算机、软件;面包馒头;教师,教授。 姜维.《文本分析与文本挖掘》.科学出版社.2018 面临的问题 如何衡量相似性 聚类的个数 当存在多义词如何聚类 姜维.《文本分析与文本挖掘》.科学出版社.2018 思考? 如何优化存在多义词情况下的聚类? 主题有着重要作用,如何实现主题聚类? “苹果”可能是指常吃的水果apple,也可能是指当前常见的苹果手机iphone,也可能是苹果计算机等。 姜维.《文本分析与文本挖掘》.科学出版社.2018 讲个故事 三博说:机智人(三博的智能机器人),我问你,都说时间是宝贵的,是吗? 机智人说:是啊,一寸光阴一寸金。 三博说:好像有问题啊,都说生命是无价的,时间就是生命,那么时间就是无价的了? 机智人:这…这…这是复杂语言现象,我需要咨询一下设计师… 姜维.《文本分析与文本挖掘》.科学出版社.2018 分析语义,还可能需要分析语用,以达到真正地理解“语意” 说话人往往并不是单纯地要表达语言成分和符号单位的静态意义,听话人通常要通过一系列心理推断,去理解说话人的实际意图。 姜维.《文本分析与文本挖掘》.科学出版社.2018 内容索引 第1节 聚类方法与文本聚类问题 第2节 k均值与k中心点文本聚类方法 第3节 文本层次聚类方法 第4节 基于聚类技术的词义分析 第5节 自组织神经网络聚类与密度聚类 第6节 本章小结 练习与思考 姜维.《文本分析与文本挖掘》.科学出版社.2018 内容索引 第1节 聚类方法与文本聚类问题 第2节 k均值与k中心点文本聚类方法 第3节 文本层次聚类方法 第4节 基于聚类技术的词义分析 第5节 自组织神经网络聚类与密度聚类 第6节 本章小结 练习与思考 姜维.《文本分析与文本挖掘》.科学出版社.2018 文本聚类 上下文聚类 分析语义:近义词、多义词 仍面临许多的问题。 姜维.《文本分析与文本挖掘》.科学出版社.2018 内容索引 第1节 聚类方法与文本聚类问题 第2节 k均值与k中心点文本聚类方法 第3节 文本层次聚类方法 第4节 基于聚类技术的词义分析 第5节 自组织神经网络聚类与密度聚类 第6节 本章小结 练习与思考 姜维.《文本分析与文本挖掘》.科学出版社.2018 (1)相比一般的聚类问题,文本聚类面临哪些特点? (2)简述基于密度的文本聚类过程。 (3)简述基于聚类技术的近义词发现? (4)思考,文本聚类应用在互联网上,能为人们提供哪些服务?请给出详细设计方案。 姜维.《文本分析与文本挖掘》.科学出版社.2018 End 姜维.《文本分析与文本挖掘》.科学出版社.2018 姜维.《文本分析与文本挖掘》.科学出版社.2018 姜维.《文本分析与文本挖掘》.科学出版社.2018 第5讲 文本聚类技术 姜维 哈尔滨工业大学 姜维.《文本分析与文本挖掘》.科学出版社.2018 内容索引 第1节 聚类方法与文本聚类问题 第2节 k均值与k中心点文本聚类方法 第3节 文本层次聚类方法 第4节 基于聚类技术的词义分析 第5节 自组织神经网络聚类与密度聚类 第6节 本章小结 练习与思考 姜维.《文本分析与文本挖掘》.科学出版社.2018 文本聚类(Text cluster)是自动地按照内容的相似性将文本分组聚为若干类。 文本聚类问题上,数据、特征和模型仍是三个主要问题。 姜维.《文本分析与文本挖掘》.科学出版社.2018 聚类是将数据对象分组成为多个类或簇(Cluster) 同类对象间具有较高的相似性 不同类的对象间具有较大的差异性 姜维.《文本分析与文本挖掘》.科学出版社.2018 聚类的过程属于无监督学习 聚类性能完全依赖样本特征的表示、相似度的计算以及聚类方法。 姜维.《文本分析与文本挖掘》.科学出版社.2018 六种聚类类型: 划分方法(Partitioning Methods) 层次方法(Hierarchical Methods) 基于密度的方法(Density-Based Methods) 基于网格的方法(Grid-Based Methods) 基于模型的聚类方法(Model-Based Clustering Methods) 竞争聚类类型(Competition based clustering Methods)。 姜维.《文本分析与文本挖掘》.科学出版社.2018 文本聚类分析的常用

文档评论(0)

1亿VIP精品文档

相关文档