DM 5 文本分类 QBai 21082006.ppt

  1. 1、本文档共85页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Web数据挖掘: 文本分类与网页分类 Dr. Qingyuan Bai School of Computer Science Faculty of Mathematics and Computer Science, Fuzhou University Email: baiqy@ 文本摘要的出现 自动文本摘要在我们身边随处可见 新闻标题 论文摘要 小说的故事梗概…… 自动文本摘要产生的必然性 万维网上文本数据的迅速增长,人们很难浏览关于某一主题的所有网页,因此必须借助于自动工具来帮助人们获取信息,自动工具包括搜索引擎、文本分类、文本摘要等。 表面级方法一: Luhn算法 Luhn算法的核心思想是为文章中的每一个句子赋予一个意义值,那些具有最大意义值的句子将会被抽取出来作为摘要,其中句子的意义值是通过句中意义词的个数计算得到的。 确定“意义词集”:意义词应该是文章中的“中”频词集。 //高频词通常为停用词,而低频词又因出现次数太少,没有对表达文章意义有太大贡献。 计算句子权重: 找出句中满足如下条件的区间,即区间两端为意义词,区间中的相邻意义词之间的距离不超过n,n是一个经验值;然后用区间中意义词个数的平方除以区间的长度,所得的商即为句子的意义值。 表面级方法一: Luhn算法 图示句子的意义值为 4^2 / 7=2.3 。 计算出所有句子意义值后,可依据意义值对整个文章的句子进行排序,按照压缩率选取意义值最大的句子作为摘要输出。 表面级方法二: Edumundsonian算法 Edumundsonian算法依据四种形式特征来对文中的句子赋予权重。 这四种特征为::F(词频)、T(标题)、L(位置)和C(线索词)加权公式为: 信息检索系统(IR) 问题回答系统(QA) 智能收集系统 多媒体新闻系统 0. Web使用信息挖掘综述1/7 文献[1]提出最大前向引用的概念,用于在Web日志预处理阶段辩识用户访问事务;[2]从Web日志中发掘频繁访问路径;[3]利用Web日志对Web访问者进行聚类. Web使用信息挖掘包含三个阶段:数据预处理、模式发现、模式分析和应用。 数据预处理 可使用的数据:IP地址、页面访问时间//Web Log 内容数据:Web页面的实际数据//页面抽取 结构数据: Web页面之间的链接 0. Web使用信息挖掘综述2/7 数据预处理的结果:一个页面集合P={p1,p2,…,pn}和一个用户事务集T={t1,t2,…,tm},其中ti是P的子集.从概念上讲,我们可以把每一个事务t看成是一个具有k长度的序列对 t=(p1t,w1t),(p2t,w2t),…,(pkt,wkt), pit为页面,wit为pi在事务t中的权. 用户事务可以被看成集合(不考虑页面间的顺序),也可以被看成序列(考虑页面间的顺序)。对于序列分析和频繁浏览模式的发掘,必须保留事务中的顺序信息。对于聚类、分类和关联规则发掘,可以把用户事务看成集合,表示成n维页面向量,分量是页面在事务中的权重,这样得到(m?n)的用户事务-页面矩阵。 0. Web使用信息挖掘综述3/7 模式发现: 关联规则挖掘技术:在事务中发掘页面与页面之间的非序列关系。关联规则的生成基于页面在事务中的共现模式,即关联规则中的页面经常在同一个会话中被访问。//不考虑页面之间被访问的顺序。 序列模式:在时间戳有序的事务集中找出这样的内部事务模式,即一些页面被访问后紧接着另一些页面也被访问了。 Markov模型常用来发掘序列模式。 0. Web使用信息挖掘综述4/7 通常地,一个Markov模型由一个状态集合{s1,s2,…,sn}和一个状态转移概率矩阵M组成,其中M=(Pi,j)n?n, pi,j表示从状态si转移到状态sj的概率。可以用Markov模型对页面访问序列进行建模,把从一个页面的访问到另一个页面的访问看成是状态的转移,用Markov链描述页面访问之间的概率转移。 聚类:可以进行两种聚类,即用户聚类(具有相似浏览模式的用户类)和页面聚类(具有相关内容的页面类)。PageGather算法[4,5]基于页面在用户访问会话中的共现对Web站点的页面作聚类。对聚类结果中的每一个簇,系统自动生成一个包含该簇中所有页面链接的Web页面,称为索引页面。每一个索引页面反映了一组用户可能具有的共同兴趣。 0. Web使用信息挖掘综述5/7 模式发现: 聚类:[6]基于Web服务器日志对Web页面进行聚类。[7]对用户的评价记录进行聚类,作为协同过滤的先前步骤,以弥补KNN算法的规模问题。 分类:在Web使用信息挖掘中,分类可用于为一组特定用户建立简档,为此需要抽取并选择最能描述这组特定用户的特征.分类可以用有指导的学习算法,比如,决策树、Bayes

您可能关注的文档

文档评论(0)

187****5045 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档