文本挖掘综述课件讲义.pptVIP

下载本文档

25
0
约 62页
2017-03-25 发布于湖北
举报
版权申诉

文本挖掘综述课件讲义.ppt

1、本文档共62页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

文本挖掘主要内容文本挖掘的背景数据挖掘大部分研究主要针对结构化数据，如关系的、事务的和数据仓库数据。现实中大部分数据存储在文本数据库中，如新闻文章、研究论文、书籍、WEB页面等。存放在文本数据库中的数据是半结构化数据，文档中可能包含结构化字段，如标题、作者、出版社、出版日期等，也包含大量非结构化数据，如摘要和内容等。 1、文本挖掘概述传统的自然语言理解是对文本进行较低层次的理解，主要进行基于词、语法和语义信息的分析，并通过词在句子中出现的次序发现有意义的信息。文本高层次理解的对象可以是仅包含简单句子的单个文本也可以是多个文本组成的文本集，但是现有的技术手段虽然基本上解决了单个句子的分析问题，但是还很难覆盖所有的语言现象，特别是对整个段落或篇章的理解还无从下手。将数据挖掘的成果用于分析以自然语言描述的文本，这种方法被称为文本挖掘(Text Mining)或文本知识发现(Knowledge Discovery in Text). 文本检索应用实例文本检索过程文档检索基本步骤文本挖掘与数据挖掘的区别：文本挖掘：文档本身是半结构化的或非结构化的，无确定形式并且缺乏机器可理解的语义；数据挖掘：其对象以数据库中的结构化数据为主，并利用关系表等存储结构来发现知识因此，数据挖掘的技术不适用于文本挖掘，或至少需要预处理。文本挖掘与数据挖掘的区别文本挖掘概念文本挖掘旨在通过识别和检索令人感兴趣的模式，进而从数据源中抽取有用的信息。文本挖掘的数据源是文本集合，令人感兴趣的模式不是从形式化的数据库记录里发现，而是从非结构化的数据中发现。文本挖掘的任务文本挖掘预处理原始的非结构化数据源?结构化表示文本模式挖掘文本挖掘系统核心功能是分析文本集合中各个文本之间共同出现的模式例如：蛋白质P1和酶E1存在联系，在其他文章中说酶E1和酶E2功能相似，还有文章把酶E2和蛋白质P2联系起来，我们可以推断出P1和P2存在联系挖掘结果可视化也就是文本挖掘系统的表示层，简称浏览文本挖掘处理过程 2、文本数据分析和信息检索信息检索泛指用户从包含各种信息的文档集中查找所需要的信息或知识的过程，人们借助某种检索工具，运用某种特定的检索策略从待检索的信息源中查找出自己需要的信息。 1. 文本检索的基本度量 2. 文本检索方法 3. 文本索引技术 4. 查询处理技术 2、文本数据分析和信息检索信息检索研究的是大量基于文本的文档信息的组织和检索，如联机图书馆系统、联机文档管理系统和WEB搜索引擎。数据库系统关注结构化数据段查询和事务处理。信息检索研究的典型问题是根据用户查询（描述所需信息的关键词），在文档中定位相关文档。 2.1 文本检索的基本度量查准率（Precision）是检索到的文档中的相关文档占全部检索到的文档的百分比，它所衡量的是检索系统的准确性查全率（Recall）是被检索出的文档中的相关文档占全部相关文档的百分比，它所衡量的是检索系统的全面性信息检索的度量方式 {relevant}：与某查询相关的文档的集合。 {retrieved}：系统检索到的文档的集合。 {relevant} ∩ {retrieved}：既相关又被检索到的实际文档的集合。查准率(precision)：既相关又被检索到的实际文档与检索到的文档的百分比。查全率(recall)：既相关又被检索到的实际文档与查询相关的文档的百分比。模型质量的评价实例 2.2 文档检索方法文档选择查询是对选择相关文档指定约束条件，典型方法是布尔检索模型。文档秩评定查询是按相关的次序评定所有文档的秩。即将查询中的关键词与文档中的关键词进行匹配，根据匹配查询的程度给每个文档打分。基于模型的检索布尔模型：将用户提问表示成布尔表达式，查询式是由用户提问和操作符and、or、not组成的表达式向量空间模型：有一特征表示集，特征通常为字或词。用户提问与文本表示成高维空间向量，其中每一维为一特征。每个特征用权值表示。用户提问向量的权值由用户制定概率模型。富有代表性的模型是二值独立检索模型(BIR)。BIR模型根据用户的查询Q，可以将所有文档d分为两类，一类与查询相关(集合R)，另一类与查询不相关(集合N, 是R 的补集) 文本符号化符号化：为表示文档而标识关键词。停用词表：看上去“不相关的”词的集合。例如：a, the, of , for, with等都是停用词。词根：文本检索系统需要识别互为句法变体的一组词，并且只收集每组词的公共词根。例如：一组词drug， drugged，和drugs具有公共词根drug，可以看做同一个词的不同出现。文档