- 1、本文档共81页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第10章其他挖掘方法;数据挖掘的研究范围十分广泛,除了前面几章介绍的基本数据挖掘方法外,数据挖掘方法应用到不同的领域形成了与相关领域相结合的各种数据挖掘技术。
本章主要介绍文本挖掘、Web挖掘方法。;10.1文本挖掘技术;2.文本挖掘过程;2.文本挖掘过程;3.文本挖掘和数据挖掘的区别;10.1.2数据预处理技术;例如,一个句子为S=“我们是学生”,长度n=5。;例如,一个句子为S=“我们是学生”,长度n=5。;(2)基于无词典的分词方法;2.特征表示;在向量空间模型中,一个文本集由若干文本组成,每个文本被表示为在一个高维词空间中的一个特征向量:
di=(ti,1:wi,1,ti,2:wi,2,…,ti,m:wi,m)
其中di为文本,ti,j表示第i个文本di中的第j个词,wi,j表示词ti,j在文本di中的权重。词的权重一般采用wi,j=tf×idf方法来计算得到。;定义10.1词频tf(TermFrequency)是指一个词在一个文本中出现的频数,其定义为:
其中,是词ti,j在文本di中出现的次数,Ni是文本di中所有词出现的总数。显然,一个词的tf值越大,则对文本的贡献度越大。;定义10.2逆文本频度idf(InverseDocumentFrequency)表示一个词在整个文本集中的分布情况,其定义为
其中,N是文本集中包含的文本总数,是包含词ti,j的文本个数。;tf×idf是一种常用的词权重计算方法,有多种形式。如果一个词或短语在一篇文章中出现的词频tf高,并且在其他文章中很少出现,则认为该词或短语具有律好的类别区分能力,适合用来分类。
tf×idf结合了两者,从词出现在文本中的频率和在文本集中的分布情况两方面来衡量词的重要性。;3.特征提取;10.1.3文本结构分析;如图11.2所示是文章的形式结构图,根结点是文章层,依次为节层、段落层、句子层和词层。;10.1.4文本分类;分类性能评估;11.1.5文本聚类;10.1.5文本自动摘要;10.1.6文本关联分析;10.1.7文本挖掘应用;10.2情感分析与观点挖掘;;;;;研究框架;中国知网情感词典;利用Web获得评论倾向性;情感分类任务;情感分类方法;基于情感词计数的情感分类;;基于机器学习的情感分类;观点提取;10.3Web挖掘;2.Web挖掘与数据挖掘的区别;3.Web挖掘的基本步骤;4.Web挖掘的分类;5.Web挖掘的主要应用;10.2.2Web结构挖掘;1.PageRank算法;PageRank算法的假设是:若一个网页a有到另一个网页b的超链接,则认为此超链接是网页a的作者对网页b的推荐,且两个网页的内容具有相似的主题。
如果大量的网页推荐同一个网页,则后者被认为是一个权威网页。
所以一个网页的入度越大,其权威就越高。一个拥有高权威值的网页指向的网页比一个拥有低权威值的网页指向的网页更加重要。
如果一个网页被其他重要的网页所指向,那么该网页也很重要。;定义10.4PageRank值的具体定义如下:将Web对应成有向图,令u、v为网页,记Fu为u所指向的网页集合(即若v∈Fu,则网页u含有指向网页v的链接),记Bu为指向网页u的网页集合。令Nu=|Fu|,即Nu为网页u上的链接数,则网页u的PageRank值(u的重要程度)PR(u)可以简单地定义为:;该式的含义是:网页u的PageRank值等于所有指向它的网页为它传入的PageRank值。如果网页u上有Nu个链接,那么它会把自身的PageRank值PR(u)平均地传出,即每一个链接传出PR(u)/Nu。;;【例10.1】假设a、b、c是3个网页,其链接结构如图11.6所示。在开始计算之前先要赋给每个网页一个初始PageRank值(初始值的选取不会影响PageRank值计算的结果),假设为(0,2.5,2.5)。计算的过程如下。;(1)第1次迭代:
PR(a)=PR(c)/1=2.5
PR(b)=PR(a)/2=0(式中PR(a)=0)
PR(c)=PR(a)/2+PR(b)/1=2.5(式中PR(a)=0,PR(b)=2.5);(2)第2次迭代:
PR(a)=PR(c)/1=2.5/1=2.5
PR(b)=PR(a)/2=2.5/2=1.25
PR(c)=PR(a)/2+PR(b)/1=1.25+0=1.25;在上述PageRank值简单的计算过程中,若某个网页的链出数为零(也称为孤立网页),计算过程就无法进行下去。为此修改PageRank值的计算公式如下:;;E(pi)为网页pi的原始rank值,给不同的网页赋予不同的值可以使搜索结果不同,可以用
您可能关注的文档
最近下载
- HG╱T 3655-2012 紫外光(UV)固化木器涂料.pdf
- 人民警察警示教育观看心得.docx VIP
- Q-GDW-智能变电站辅助控制系统设计技术规范.pdf
- 外教社2023中国文化英语综合教程 上册 Unit 3 PPT课件(试用版).pptx
- 乡镇临床执业助理医师:甲状腺功能亢进症考试题.docx VIP
- 冀教版七年级上册数学《角的大小》教学说课研讨课件复习.pptx VIP
- 全国智能制造应用技术技能竞赛题及答案.doc VIP
- 智慧园区管理平台建设方案.pdf
- XX职业技术学院关于大数据与会计专业实习的实施方案.docx
- GBT 50034-2024 建筑照明设计标准.docx VIP
文档评论(0)