第12章文本挖掘.pptVIP

下载本文档

2
0
约2.57千字
约 22页
2019-07-19 发布于湖北
举报
版权申诉

第12章文本挖掘.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据仓库与数据挖掘第12章文本挖掘在浩瀚的文本中找到所需信息。第12章文本挖掘 12.1 引例 12.2 文本挖掘 12.1 引例乒乓球女团中国夺冠，第33金超越雅典奥运创造历史[文本1] 神舟六号轨道舱正常运行60天取得大量科学数据[文本2] 乒乓男单决赛颁奖中国三虎将包揽金银铜牌[文本3] 前三段文本中哪两段文本在内容上更接近？如果前两段文本各代表一类文本，那么，你认为第三个文本应该归为其中的哪一类？ 12.2 文本挖掘 12.2.1 文本信息检索概述 12.2.2 基于关键字的关联分析 12.2.3 文档自动聚类 12.2.4 文档自动分类 12.2.5 自动摘要 12.2.1 文本信息检索概述信息检索泛指用户从包含各种信息的文档集中查找所需要的信息或知识的过程，人们借助某种检索工具，运用某种特定的检索策略从待检索的信息源中查找出自己需要的信息。信息检索是一种不确定性检索，用户在检索信息时，并不知道信息源里是否有符合需要的东西。 1. 信息检索的度量方式查准率（Precision）是检索到的文档中的相关文档占全部检索到的文档的百分比，它所衡量的是检索系统的准确性查全率（Recall）是被检索出的文档中的相关文档占全部相关文档的百分比，它所衡量的是检索系统的全面性 2. 基于模型的检索模型的种类：布尔模型：文档和查询式都表示为特征项的集合，运用集合运算来检索。向量空间模型：文档和查询式都表示为高维空间中的向量，通过对代数的向量运算进行检索。概率模型：文档和查询式是通过概率理论形式化为概率分布，建立在概率运算的基础上。 3. 基于相似性的检索根据一个文档集合d和一个项集合t，可以将每个文档表示为在t维空间R中的一个文档特征向量v。向量v中第j个数值就是相应文档中第j个项的量度。计算两个文档相似性可以使用上面的公式 4. 文档间相似性计算举例以前述三个文档为例，构建一个基于所有文档的词典。词典内容：北京大学,体育馆,乒乓球,团体,决赛,中国队,总比分,奥运会,金牌,女子团体,雅典奥运会,男子单打,检测数据,神舟六号,轨道舱,太空,科学试验,金融,银行,监管,市场,经营,国际,货币,人民币 v1 = { 1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0 } v2 = { 0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,0,0,0,0,0,0,0,0 } v3 = { 1,1,1,0,1,0,1,1,1,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0 } 12.2.2 基于关键字的关联分析基于关键字关联分析就是首先收集频繁一起出现的项或者关键字的集合，然后发现其中所存在的关联性关联分析对文本数据库进行预处理，生成关键字向量，根据关键字查询向量与文档向量之间的相关度比较结果输出文本结果，然后调用关联挖掘算法与关系数据库中关联规则的挖掘方法相似。 12.2.3 文档自动聚类 1、什么是文档自动聚类 2、文档自动聚类的步骤 3、文档自动聚类的类型 1、什么是文档自动聚类文本聚类是根据文本数据的不同特征，将其划分为不同数据类的过程。其目的是要使同一类别的文本间的距离尽可能小，而不同类别的文本间的距离尽可能的大。传统的聚类方法在处理高维和海量文本数据时效果不太理想。 2、文档自动聚类的步骤（1）获取结构化的文本集（2）执行聚类算法，获得聚类谱系图。聚类算法的目的是获取能够反映特征空间样本点之间的“抱团”性质（3）选取合适的聚类阈值。在得到聚类谱系图后，领域专家凭借经验，并结合具体的应用场合确定阈值（4）执行聚类算法，获得聚类结果 3、文档自动聚类的类型平面划分法：对包含n个样本的样本集构造样本集的k个划分，每个划分表示一个聚簇层次聚类法：层次聚类法对给定的样本集进行层次分解。根据层次分解方向的不同可分为凝聚层次聚类和分裂层次聚类基于密度的方法：根据样本点临近区域的密度进行聚类，使在给定区域内至少包含一定数据的样本点基于网格的方法：采用多分辨率的网格数据结构，将样本空间量化为数量有限的网格单元，所有聚类操作都在网格上进行基于模型的方法：为每个簇假定一个模型，然后通过寻找样本对给定模型的最佳拟合进行聚类 12.2.4 文档自动分类自动文档分类是指利用计算机将一篇文章自动地分派到一个或多个预定义的类别中文档分类的关键问题是获得一个分类模式，利用此分类模式也可以用于其他文档的分类有了一个模式之后，需要进行人工标记和训练，以确定这个模式的参数，然后才能进行自动的文档分类 12.2.5 自动摘要文档的自动摘要就是利用计算机对文档进行处理，从中挑选出最能代表文档中心思想的句子或段落，经过修