文本挖掘（TextMining）.ppt

下载文档

118
0
约 47页
2017-09-30 发布于北京
举报
版权申诉
保障服务

文本挖掘（TextMining）.ppt

1、本文档共47页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

11111111111111111111111111111 文本挖掘（TextMining）提纲文本挖掘的起源文本挖掘的过程特征建立特征集缩减知识模式提取模型评价国内外研究状况文本挖掘的起源文本数据库（web文档数据）半结构化数据（semistructure data）信息检索技术（information retrieval） Web文本挖掘的过程 Web文本挖掘的一般处理过程文本特征的建立定义：文本特征指的是关于文本的元数据。分类：描述性特征：文本的名称、日期、大小、类型等。语义性特征：文本的作者、标题、机构、内容等。表示（文档建模）：采用向量空间模型（VSM）（矩阵）特征向量（其中ti为词条项，wi(d)为ti在d中的权值）文本特征评价函数的数学表示信息增益（information gain）期望交叉熵（expected cross entropy）互信息（mutual information）文本特征评价函数的数学表示(续) 文本证据权（the weight of evidence for text）词频（word frequency）文档建模词频矩阵行对应关键词t，列对应文档d向量将每一个文档视为空间向量v 向量值反映单词t与文档d的关联度文档相似度计算余弦计算法（cosine measure）余弦相似度定义：其中为两个文档向量，内积为标准向量点积，定义为，定义为。缺点：文档“无限”，导致矩阵增大，计算量增加特征集的缩减潜在语义标引（latent semantic indexing）方法利用矩阵理论中的“奇异值分解（singular value decomposition,SVD）”技术，将词频矩阵转化为奇异矩阵（K×K）潜在语义标引方法基本步骤： 1.建立词频矩阵，frequency matrix 2.计算frequency matrix的奇异值分解分解frequency matrix成3个矩阵U，S，V。U和V是正交矩阵（UTU=I），S是奇异值的对角矩阵（K×K） 3.对于每一个文档 d，用排除了SVD中消除后的词的新的向量替换原有的向量 4.保存所有向量集合，用高级多维索引技术为其创建索引 5.用转换后的文档向量进行相似度计算其他文本检索标引技术倒排索引（inverted index）一种索引结构，包含两个哈希表索引表或两个B+树索引表找出与给定词集相关的所有文档找出与指定文档相关的所有词易实现，但不能处理同义词和多义词问题，posting_list非常长，存储开销大签名文件（signature file）词性标注定义：将句子中兼类词的词性根据上下文唯一地确定下来。兼类词分类：同型异性异义兼类词：例如：领导（动词/名词）同型异性同义兼类词：例如：小时（量词/名词）异型同性同义兼类词：例如：电脑，计算机自动词性标注就是用计算机来自动地给文本中的词标注词类。在英语、汉语等自然语言中，都存在着大量的词的兼类现象，这给文本的自动词性标注带来了很大的困难。因此，如何排除词类歧义，是文本自动词性标注研究的关键问题。标注技术路线：基于概率统计和基于规则自动词类标注早在60年代，国外学者就开始研究英语文本的自动词类标注问题，提出了一些消除兼类词歧义的方法，建立了一些自动词性标注系统。 1971年，美国布朗大学的格林（Greene）和鲁宾（Rubin）建立了TAGGIT系统，采用了86个词类标记，利用了3300条上下文框架规则（context frame rules）来排除兼类词歧义，自动标注正确率达到77%. 1983年，里奇（G. Leech）和加塞德（R. Garside）等人建立了CLAWS系统，用概率统计的方法来进行自动词性标注，他们使用了133×133的词类共现概率矩阵，通过统计模型来消除兼类词歧义，自动标注的正确率达到了96%. 1988年，德洛斯（S. J. DeRose）对CLAWS系统作了一些改进，利用线性规划的方法来降低系统的复杂性，提出了VOLSUNGA算法，大大地提高了处理效率，使自动词性标注的正确率达到了实用的水平。基于概率统计的CLAWS算法 CLAWS是英语Constituent-Likelihood Automatic Word-tagging System（成分似然性自动词性自动标注系统）的简称，它是1983年玛沙尔(