DM 5 文本分类 QBai 21082006.ppt

下载文档 降价啦

4
0
约1.53万字
约 85页
2018-06-13 发布于湖北
举报
版权申诉
保障服务

DM 5 文本分类 QBai 21082006.ppt

1、本文档共85页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Web数据挖掘:文本分类与网页分类 Dr. Qingyuan Bai School of Computer Science Faculty of Mathematics and Computer Science, Fuzhou University Email: baiqy@ 文本摘要的出现自动文本摘要在我们身边随处可见新闻标题论文摘要小说的故事梗概…… 自动文本摘要产生的必然性万维网上文本数据的迅速增长，人们很难浏览关于某一主题的所有网页，因此必须借助于自动工具来帮助人们获取信息，自动工具包括搜索引擎、文本分类、文本摘要等。表面级方法一: Luhn算法 Luhn算法的核心思想是为文章中的每一个句子赋予一个意义值，那些具有最大意义值的句子将会被抽取出来作为摘要，其中句子的意义值是通过句中意义词的个数计算得到的。确定“意义词集”：意义词应该是文章中的“中”频词集。 //高频词通常为停用词，而低频词又因出现次数太少，没有对表达文章意义有太大贡献。计算句子权重：找出句中满足如下条件的区间，即区间两端为意义词，区间中的相邻意义词之间的距离不超过n，n是一个经验值；然后用区间中意义词个数的平方除以区间的长度，所得的商即为句子的意义值。表面级方法一: Luhn算法图示句子的意义值为 4^2 / 7=2.3 。计算出所有句子意义值后，可依据意义值对整个文章的句子进行排序，按照压缩率选取意义值最大的句子作为摘要输出。表面级方法二: Edumundsonian算法 Edumundsonian算法依据四种形式特征来对文中的句子赋予权重。这四种特征为：：F（词频）、T（标题）、L（位置）和C（线索词）加权公式为：信息检索系统（IR）问题回答系统（QA）智能收集系统多媒体新闻系统 0. Web使用信息挖掘综述1/7 文献[1]提出最大前向引用的概念,用于在Web日志预处理阶段辩识用户访问事务;[2]从Web日志中发掘频繁访问路径;[3]利用Web日志对Web访问者进行聚类. Web使用信息挖掘包含三个阶段:数据预处理、模式发现、模式分析和应用。数据预处理可使用的数据:IP地址、页面访问时间//Web Log 内容数据：Web页面的实际数据//页面抽取结构数据: Web页面之间的链接 0. Web使用信息挖掘综述2/7 数据预处理的结果:一个页面集合P={p1,p2,…,pn}和一个用户事务集T={t1,t2,…,tm},其中ti是P的子集.从概念上讲,我们可以把每一个事务t看成是一个具有k长度的序列对 t=(p1t,w1t),(p2t,w2t),…,(pkt,wkt), pit为页面,wit为pi在事务t中的权. 用户事务可以被看成集合（不考虑页面间的顺序），也可以被看成序列（考虑页面间的顺序）。对于序列分析和频繁浏览模式的发掘，必须保留事务中的顺序信息。对于聚类、分类和关联规则发掘，可以把用户事务看成集合，表示成n维页面向量，分量是页面在事务中的权重，这样得到（m?n）的用户事务-页面矩阵。 0. Web使用信息挖掘综述3/7 模式发现：关联规则挖掘技术：在事务中发掘页面与页面之间的非序列关系。关联规则的生成基于页面在事务中的共现模式，即关联规则中的页面经常在同一个会话中被访问。//不考虑页面之间被访问的顺序。序列模式：在时间戳有序的事务集中找出这样的内部事务模式，即一些页面被访问后紧接着另一些页面也被访问了。 Markov模型常用来发掘序列模式。 0. Web使用信息挖掘综述4/7 通常地，一个Markov模型由一个状态集合{s1,s2,…,sn}和一个状态转移概率矩阵M组成，其中M=(Pi,j)n?n, pi,j表示从状态si转移到状态sj的概率。可以用Markov模型对页面访问序列进行建模，把从一个页面的访问到另一个页面的访问看成是状态的转移，用Markov链描述页面访问之间的概率转移。聚类：可以进行两种聚类，即用户聚类(具有相似浏览模式的用户类)和页面聚类(具有相关内容的页面类)。PageGather算法[4,5]基于页面在用户访问会话中的共现对Web站点的页面作聚类。对聚类结果中的每一个簇，系统自动生成一个包含该簇中所有页面链接的Web页面，称为索引页面。每一个索引页面反映了一组用户可能具有的共同兴趣。 0. Web使用信息挖掘综述5/7 模式发现：聚类：[6]基于Web服务器日志对Web页面进行聚类。[7]对用户的评价记录进行聚类，作为协同过滤的先前步骤，以弥补KNN算法的规模问题。分类：在Web使用信息挖掘中，分类可用于为一组特定用户建立简档,为此需要抽取并选择最能描述这组特定用户的特征.分类可以用有指导的学习算法,比如,决策树、Bayes