文本挖掘重点.pptx

  1. 1、本文档共47页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文本挖掘重点会计学第1页/共47页提纲文本挖掘的起源文本挖掘的过程特征建立特征集缩减知识模式提取模型评价国内外研究状况第2页/共47页文本挖掘的起源文本数据库(web文档数据)半结构化数据(semistructure data)信息检索技术(information retrieval)特征的建立特征集的缩减学习与知识模式的提取模式质量的评价知识模式文档集第3页/共47页Web文本挖掘的过程Web文本挖掘的一般处理过程文本特征的建立第4页/共47页定义:文本特征指的是关于文本的元数据。分类:描述性特征:文本的名称、日期、大小、类型等。语义性特征:文本的作者、标题、机构、内容等。表示(文档建模):采用向量空间模型(VSM)(矩阵)特征向量 (其中ti为词条项,wi(d)为ti在d中的权值)文本特征评价函数的数学表示第5页/共47页信息增益(information gain)期望交叉熵(expected cross entropy)互信息(mutual information)F是对应于单词W的特征;P(W)为单词W出现的概率;P(Ci)为第i类值的出现概率;p(Ci|W)为单词W出现时属于第i类的条件概率。第6页/共47页文本特征评价函数的数学表示(续)文本证据权(the weight of evidence for text)词频(word frequency)P(W)为单词W出现的概率;P(Ci)为第i类值的出现概率;p(Ci|W)为单词W出现时属于第i类的条件概率;TF(W)为单词在文档集中出现的次数。文档建模第7页/共47页词频矩阵行对应关键词t,列对应文档d向量将每一个文档视为空间向量v向量值反映单词t与文档d的关联度表示文档词频的词频矩阵d1d2d3d4d5d6t132285356915320t236190765713370t325331604822126t430140702011635文档相似度计算第8页/共47页余弦计算法(cosine measure)余弦相似度定义:其中 为两个文档向量, 内积 为标准向量点积,定义为 , 定义为 。缺点:文档“无限”,导致矩阵增大,计算量增加特征集的缩减第9页/共47页潜在语义标引(latent semantic indexing)方法利用矩阵理论中的“奇异值分解(singular value decomposition,SVD)”技术,将词频矩阵转化为奇异矩阵(K×K)潜在语义标引方法基本步骤:1.建立词频矩阵,frequency matrix2.计算frequency matrix的奇异值分解分解frequency matrix成3个矩阵U,S,V。U和V是正交矩阵(UTU=I),S是奇异值的对角矩阵(K×K)3.对于每一个文档 d,用排除了SVD中消除后的词的新的向量替换原有的向量4.保存所有向量集合,用高级多维索引技术为其创建索引5.用转换后的文档向量进行相似度计算其他文本检索标引技术第10页/共47页倒排索引(inverted index)一种索引结构,包含两个哈希表索引表或两个B+树索引表找出与给定词集相关的所有文档找出与指定文档相关的所有词易实现,但不能处理同义词和多义词问题,posting_list非常长,存储开销大签名文件(signature file)文档表(document_table)词表(term_table)doc_IDposting_listterm_IDposting_listDoc_1t1_1, ... ,t1_nTerm_1doc_1, ... , doc_iDoc_2t2_1, ... ,t2_nTerm_2doc_1, ... , doc_ j┇ ┇ ┇ ┇ Doc_ntn_1, ... ,tn_nTerm_ndoc_1, ... , doc_n词性标注第11页/共47页定义:将句子中兼类词的词性根据上下文唯一地确定下来。兼类词分类:同型异性异义兼类词:例如:领导(动词/名词)同型异性同义兼类词:例如:小时(量词/名词)异型同性同义兼类词:例如:电脑,计算机自动词性标注就是用计算机来自动地给文本中的词标注词类。在英语、汉语等自然语言中,都存在着大量的词的兼类现象,这给文本的自动词性标注带来了很大的困难。因此,如何排除词类歧义,是文本自动词性标注研究的关键问题。标注技术路线:基于概率统计和基于规则第12页/共47页自动词类标注早在60年代,国外学者就开始研究英语文本的自动词类标注问题,提出了一些消除兼类词歧义的方法,建立了一些自动词性标注系统。1971年,美国布朗大学的格林(Greene)和鲁宾(Rubin)建立了

文档评论(0)

kuailelaifenxian + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

认证主体太仓市沙溪镇牛文库商务信息咨询服务部
IP属地上海
统一社会信用代码/组织机构代码
92320585MA1WRHUU8N

1亿VIP精品文档

相关文档