网站大量收购独家精品文档,联系QQ:2885784924

中文文本挖掘演示v0.5.ppt

  1. 1、本文档共35页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文文本挖掘演示v0.5

中文文本挖掘 ——吴思博 郑祥云 谭紫逸 主要内容 1.1文本挖掘的背景 1、数据挖掘大部分研究主要针对结构化数据 2、现实中大部分数据存储在文本数据库中 3、存放在文本数据库中的数据是半结构化数据 1.2文本挖掘的定义 文本挖掘( Text Mining , TM) , 又称为文本数据挖掘(Text Data Mining , TDM) 或文本知识发现(Knowledge Discovery in Texts , KDT) , 是指为了发现知识, 从大规模文本库中抽取隐含的、以前未知的、潜在有用的模式的过程 。 1.3文本挖掘与数据挖掘的区别 1.4文本挖掘的任务 文本挖掘预处理 原始的非结构化数据源?结构化表示 文本模式挖掘 文本挖掘系统核心功能是分析文本集合中各个文本之间共同出现的模式 例如:蛋白质P1和酶E1存在联系,在其他文章中说酶E1和酶E2功能相似,还有文章把酶E2和蛋白质P2联系起来,我们可以推断出P1和P2存在联系 挖掘结果可视化 也就是文本挖掘系统的表示层,简称浏览 1.5文本挖掘处理过程 1.6 中文文本挖掘流程 1.7汉语特点与当前中文信息处理水平 汉语是一种语义型语言, 重“意合”, 轻形式, 而且语形、语法和语义等各层面的歧义现象非常严重。 (1) 汉语缺乏狭义的形态 (2) 语法灵活 (3) 语义灵活 (存在一词多义、同音词、同义词、近义词等) 1.7中文文本挖掘研究现状 (1) 没有形成完整的适合中文信息处理的文本挖掘理论与技术框架 (2) 中文文本的特征提取与表示大多数采用“词袋”法 (3) 知识挖掘的种类和深度有限 1.8文本挖掘的可能应用领域包括: (1) 客户模型分析 (2) 网上有害信息的发现、过滤与跟踪 (3) 主动个性化信息服务 (4) 公司资源计划 (5) 科技文献分析 (6) 网上论坛的实时监控; (7) 电子邮件分类与过滤; 等等。 2.1 文本检索的基本度量 查准率(Precision)是检索到的文档中的相关文档占全部检索到的文档的百分比,它所衡量的是检索系统的准确性 查全率(Recall)是被检索出的文档中的相关文档占全部相关文档的百分比,它所衡量的是检索系统的全面性 信息检索的度量方式 {relevant}:与某查询相关的文档的集合。 {retrieved}:系统检索到的文档的集合。 {relevant} ∩ {retrieved}:既相关又被检索到的实际文档的集合。 模型质量的评价实例 2.2 文档检索方法 文本符号化 符号化:为表示文档而标识关键词。 停用词表:看上去“不相关的”词的集合。 中文分词: 中文分词对人名地名分解的仍然不好,大多分解成单字。 分词效果: zw - c(如果你听到某人说他使用某软体,然后看看效果,有些美中不足,那就叫《星光灿烂》吧! thus do not have the texts already stored on a hard disk, and want to save the text documents to disk) 1、去停用词: zwfc(zw,zj1) [1] 听 某人 说 使用 软 体 看看 效果 美 中 不足 星光 灿烂 thu text alreadi store hard disk save text document disk time: 0.109 s 2、不去停用词: zwfc(zw,zj1) [1] 如果 你 听 到 某人 说 他 使用 某 软 体 , 然后 看看 效果 , 有些 美 中 不足 , 那 就 叫 , 星光 灿烂 , 吧 , thu do not have the text alreadi store on a hard disk , and want to save the text document to disk time: 0.0 s 文档建模 词频:指词t在文档d中出现的次数,即freq(d,t). (加权的)词频矩阵TF(d,t):用来度量词t与给定文档d之间的关联度。 文档建模 词频矩阵 行对应关键词t,列对应文档d向量 将每一个文档视为空间向量v 向量值反映单词t与文档d的关联度 基于相似性的检索 文档间相似性计算举例 文档向量化 查询:相关度 3.文本

文档评论(0)

wyjy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档