文本挖掘算法复习总结.docVIP

下载本文档

15
0
约7.34千字
约 7页
2018-07-17 发布于上海
举报
版权申诉

文本挖掘算法复习总结.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

文本数据挖掘算法应用小结1、基于概率统计的贝叶斯分类??2、ID3 决策树分类?3、基于粗糙集理论Rough Set的确定型知识挖掘?4、基于k-means聚类?5、无限细分的模糊聚类Fuzzy Clustering??6、SOM神经元网络聚类?7、基于Meaning的文本相似度计算?8、文本模糊聚类计算?9、文本k-means聚类?10、文本分类?11、关联模式发现?12、序列模式发现?13、PCA主成分分析1、基于概率统计的贝叶斯分类算法概述：贝叶斯公式是由英国数学家( Thomas Bayes 1702-1763 )创造，用来描述两个条件概率之间的关系，比如 P(A|B) 为当“B”事件发生时“A”事件发生的概率，按照乘法法则：P(A∩B)=P(A)*P(B|A)=P(B)*P(A|B)，可导出贝叶斯公式：P(A|B)=P(B|A)*P(A)/P(B)贝叶斯分类基本思想为：设决策变量为D，D1，D2，Di，…，Dk为n条记录组成的样本空间S的一个划分，将n条记录划分成k个记录集合，如果以P(Di)表示事件Di发生的概率，且P(Di) 0 ( i=1，2，…，k)。对于任一事件x，P(x)0，则有：贝叶斯分类的基本原理，就是利用贝叶斯条件概率公式，将事件X视为多个条件属性Cj各种取值的组合，当x事件发生时决策属性Di发生的条件概率。贝叶斯分类是一种概率型分类知识挖掘方法，不能百分之百地确定X事件发生时Di一定发生。解决问题：预测所属分类的概率。通过已知n条样本集记录，计算各种条件属性组发生的概率，得出“贝叶斯分类”规则，给定一个未知“标签”记录，选择最大概率为其所属“分类”。2、ID3 决策树分类算法概述：ID3算法是J. Ross Quinlan在1975提出的分类算法，当时还没有“数据挖掘”的概念。该算法以信息论为基础，以信息熵和信息增益度来确定分枝生成决策树D-Tree。ID3算法以决策树D-Tree构建分类知识模型，D-Tree中最上面的节点为根节点Root，每个分支是一个新的决策节点，或者是树的叶子。每个决策节点代表一个问题或决策，每一个叶子节点代表一种可能的分类结果，沿决策树在每个节点都会遇到一个测试，对每个节点上问题的不同取值导致不同的分支，最后会到达一个叶子节点为确定所属分类。解决问题：预测所属分类。通过已知样本集记录，生成一颗“分类知识树”，给定一个未知“标签”记录，通过“分类知识树”来确定其所属分类。3、基于粗糙集理论Rough Set的确定型知识挖掘算法概述：1982年波兰学者Z. Paw lak 提出了粗糙集理论Rough Sets Theory，它是一种刻划不完整性和不确定性的数学工具，能有效分析不精确、不一致（Inconsistent)、不完整（Incomplete) 等各种不完备信息，利用数据进行分析和推理，从中发现隐含的知识，揭示潜在的规律。粗糙集理论是继概率论、模糊集、证据理论之后的又一个处理不确定性事物的数学工具。粗糙集理论是建立在分类机制的基础上的，它将分类理解为在特定空间上的等价关系，而等价关系构成了对该空间的划分。粗糙集理论将知识理解为对数据的划分，每一被划分的集合称为概念。其主要思想是利用已知的知识库，将不精确或不确定的知识用已知的知识库中的知识来（近似）刻画。解决问题：预测所属分类。粗糙集分类将样本空间S划分为上近似集（Upper approximation)、下近似集（Lower approximation）、边界集（Boundary region)，挖掘条件属性C与决策属性D集合所包含的不可分记录（不能再细分，该集合中的所有记录都属于某一决策属性Di的取值），这些记录形成不可辨识的关系（Indiscernibility relation)，由此确定分类规则：IF 条件属性C成立 THEN 决策属性Di发生即，如果满条件C，则其所属分类为Di。IF中的条件C可以是单一条件，也可以是组合and（并且）组合条件。BIC给出的是“最小分类规则”。所谓“最小分类规则”是，最少的条件组合。例如一个人属于“高”、“富”、“帅”，条件为：“身高”、“财富”、“工资性收入”、“财产性收入”、“产业收入”、“脸型”、“眼睛大小”、“鼻梁形状”、“英俊”等条件来判别，通过“粗糙集”分类计算，得出最小分类规则可能是“IF 财富=XXX1 and 身高=185cm and 相貌=英俊”其他条件可以忽略不计，这就是“最小分类规则”。“粗糙集”分类规则为“百分之百确定型”分类规则，这是对样本集的统计结果，如果出现非“样本集”中出现过的条件变量属性，将无法得出“粗糙集”，可转而使用概率型“贝叶斯分类”进行计算。4、基于k-means聚类算法概述：给定一个包括n条记录、每条记