网站大量收购独家精品文档,联系QQ:2885784924

文本挖掘(TextMining).ppt

  1. 1、本文档共47页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
11111111111111111111111111111 文本挖掘(TextMining) 提纲 文本挖掘的起源 文本挖掘的过程 特征建立 特征集缩减 知识模式提取 模型评价 国内外研究状况 文本挖掘的起源 文本数据库(web文档数据) 半结构化数据(semistructure data) 信息检索技术(information retrieval) Web文本挖掘的过程 Web文本挖掘的一般处理过程 文本特征的建立 定义:文本特征指的是关于文本的元数据。 分类: 描述性特征:文本的名称、日期、大小、类型等。 语义性特征:文本的作者、标题、机构、内容等。 表示(文档建模): 采用向量空间模型(VSM)(矩阵) 特征向量 (其中ti为词条项,wi(d)为ti在d中的权值) 文本特征评价函数的数学表示 信息增益(information gain) 期望交叉熵(expected cross entropy) 互信息(mutual information) 文本特征评价函数的数学表示(续) 文本证据权(the weight of evidence for text) 词频(word frequency) 文档建模 词频矩阵 行对应关键词t,列对应文档d向量 将每一个文档视为空间向量v 向量值反映单词t与文档d的关联度 文档相似度计算 余弦计算法(cosine measure) 余弦相似度定义: 其中 为两个文档向量, 内积 为标准向量点积,定义为 , 定义为 。 缺点:文档“无限”,导致矩阵增大,计算量增加 特征集的缩减 潜在语义标引(latent semantic indexing)方法 利用矩阵理论中的“奇异值分解(singular value decomposition,SVD)”技术,将词频矩阵转化为奇异矩阵(K×K) 潜在语义标引方法基本步骤: 1.建立词频矩阵,frequency matrix 2.计算frequency matrix的奇异值分解 分解frequency matrix成3个矩阵U,S,V。U和V是正交矩阵(UTU=I),S是奇异值的对角矩阵(K×K) 3.对于每一个文档 d,用排除了SVD中消除后的词的新的向量替换原有的向量 4.保存所有向量集合,用高级多维索引技术为其创建索引 5.用转换后的文档向量进行相似度计算 其他文本检索标引技术 倒排索引(inverted index) 一种索引结构,包含两个哈希表索引表或两个B+树索引表 找出与给定词集相关的所有文档 找出与指定文档相关的所有词 易实现,但不能处理同义词和多义词问题,posting_list非常长,存储开销大 签名文件(signature file) 词性标注 定义:将句子中兼类词的词性根据上下文唯一地确定下来。 兼类词分类: 同型异性异义兼类词:例如:领导(动词/名词) 同型异性同义兼类词:例如:小时(量词/名词) 异型同性同义兼类词:例如:电脑,计算机 自动词性标注就是用计算机来自动地给文本中的词标注词类。 在英语、汉语等自然语言中,都存在着大量的词的兼类现象,这给文本的自动词性标注带来了很大的困难。因此,如何排除词类歧义,是文本自动词性标注研究的关键问题。 标注技术路线:基于概率统计和基于规则 自动词类标注 早在60年代,国外学者就开始研究英语文本的自动词类标注问题,提出了一些消除兼类词歧义的方法,建立了一些自动词性标注系统。 1971年,美国布朗大学的格林(Greene)和鲁宾(Rubin)建立了TAGGIT系统,采用了86个词类标记,利用了3300条上下文框架规则(context frame rules)来排除兼类词歧义,自动标注正确率达到77%. 1983年,里奇(G. Leech)和加塞德(R. Garside)等人建立了CLAWS系统,用概率统计的方法来进行自动词性标注,他们使用了133×133的词类共现概率矩阵,通过统计模型来消除兼类词歧义,自动标注的正确率达到了96%. 1988年,德洛斯(S. J. DeRose)对CLAWS系统作了一些改进,利用线性规划的方法来降低系统的复杂性,提出了VOLSUNGA算法,大大地提高了处理效率,使自动词性标注的正确率达到了实用的水平。 基于概率统计的CLAWS算法 CLAWS是英语Constituent-Likelihood Automatic Word-tagging System(成分似然性自动词性自动标注系统)的简称,它是1983年玛沙尔(

文档评论(0)

kaku + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8124126005000000

1亿VIP精品文档

相关文档