文本挖掘重点.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

1文本挖掘(wājué)重点第一页,共47页。

提纲(tígāng)文本挖掘的起源文本挖掘的过程特征建立特征集缩减知识模式提取模型评价国内外研究(yánjiū)状况第1页/共47页第二页,共47页。

文本(wénběn)挖掘的起源文本(wénběn)数据库(web文档数据)半结构化数据(semistructuredata)信息检索技术(informationretrieval)第2页/共47页第三页,共47页。

Web文本挖掘(wājué)的过程Web文本挖掘(wājué)的一般处理过程特征的建立特征集的缩减学习与知识模式的提取知识模式模式质量的评价文档集第3页/共47页第四页,共47页。

文本特征(tèzhēng)的建立定义(dìngyì):文本特征指的是关于文本的元数据。分类:描述性特征:文本的名称、日期、大小、类型等。语义性特征:文本的作者、标题、机构、内容等。表示(文档建模):采用向量空间模型(VSM)(矩阵)特征向量 (其中ti为词条项,wi(d)为ti在d中的权值)第4页/共47页第五页,共47页。

文本特征(tèzhēng)评价函数的数学表示信息增益(informationgain)期望(qīwàng)交叉熵(expectedcrossentropy)互信息(mutualinformation)F是对应于单词W的特征;P(W)为单词W出现的概率;P(Ci)为第i类值的出现概率;p(Ci|W)为单词W出现时属于(shǔyú)第i类的条件概率。第5页/共47页第六页,共47页。

文本(wénběn)特征评价函数的数学表示(续)文本(wénběn)证据权(theweightofevidencefortext)词频(wordfrequency)P(W)为单词(dāncí)W出现的概率;P(Ci)为第i类值的出现概率;p(Ci|W)为单词(dāncí)W出现时属于第i类的条件概率;TF(W)为单词(dāncí)在文档集中出现的次数。第6页/共47页第七页,共47页。

文档建模词频矩阵行对应(duìyìng)关键词t,列对应(duìyìng)文档d向量将每一个文档视为空间向量v向量值反映单词t与文档d的关联度表示文档词频的词频矩阵d1d2d3d4d5d6t132285356915320t236190765713370t325331604822126t430140702011635第7页/共47页第八页,共47页。

文档相似(xiānɡsì)度计算余弦计算法(cosinemeasure)余弦相似(xiānɡsì)度定义:其中为两个文档向量,内积为标准向量点积,定义为,定义为。缺点:文档“无限”,导致矩阵增大,计算量增加第8页/共47页第九页,共47页。

特征(tèzhēng)集的缩减潜在语义标引(latentsemanticindexing)方法利用矩阵理论中的“奇异值分解(singularvaluedecomposition,SVD)”技术,将词频矩阵转化为奇异矩阵(K×K)潜在语义标引方法基本(jīběn)步骤:1.建立词频矩阵,frequencymatrix2.计算frequencymatrix的奇异值分解分解frequencymatrix成3个矩阵U,S,V。U和V是正交矩阵(UTU=I),S是奇异值的对角矩阵(K×K)3.对于每一个文档d,用排除了SVD中消除后的词的新的向量替换原有的向量4.保存所有向量集合,用高级多维索引技术为其创建索引5.用转换后的文档向量进行相似度计算第9页/共47页第十页,共47页。

其他(qítā)文本检索标引技术倒排索引(invertedindex)一种索引结构,包含两个哈希表索引表或两个B+树索引表找出与给定(ɡěidìnɡ)词集相关的所有文档找出与指定文档相关的所有词易实现,但不能处理同义词和多义词问题,posting_list非常长,存储开销大签名文件(signaturefile)文档表(document_table)词表(term_table)doc_IDposting_listterm_IDposting_listDoc_1t1_1,...,t1_nTerm_1doc_1,...,doc_iDoc_2t2_1,...,t2_nTerm_2doc_1,...,doc_j┇┇┇┇Doc_ntn_1,...,tn_nTerm_ndoc_1,...,doc_n第10页/共47页第十一页,共

文档评论(0)

173****6638 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档