- 1、本文档共32页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库与数据挖掘 第12章 文本和Web挖掘 12.1 引例 乒乓球女团中国夺冠,第33金超越雅典奥运创造历史[文本1] 神舟六号轨道舱正常运行60天取得大量科学数据[文本2] 乒乓男单决赛颁奖 中国三虎将包揽金银铜牌[文本3] 12.2.1 文本信息检索概述 信息检索泛指用户从包含各种信息的文档集中查找所需要的信息或知识的过程,人们借助某种检索工具,运用某种特定的检索策略从待检索的信息源中查找出自己需要的信息. 1. 信息检索的度量方式 2. 基于模型的检索 3. 基于相似性的检索 4. 文档间相似性计算举例 1. 信息检索的度量方式 查准率(Precision)是检索到的文档中的相关文档占全部检索到的文档的百分比,它所衡量的是检索系统的准确性 查全率(Recall)是被检索出的文档中的相关文档占全部相关文档的百分比,它所衡量的是检索系统的全面性 2. 基于模型的检索 布尔模型:将用户提问表示成布尔表达式,查询式是由用户提问和操作符and、or、not组成的表达式 向量空间模型:有一特征表示集,特征通常为字或词。用户提问与文本表示成高维空间向量,其中每一维为一特征。每个特征用权值表示。用户提问向量的权值由用户制定 概率模型。富有代表性的模型是二值独立检索模型(BIR)。BIR模型根据用户的查询Q,可以将所有文档d分为两类,一类与查询相关(集合R),另一类与查询不相关(集合N, 是R 的补集) 3. 基于相似性的检索 根据一个文档集合d和一个项集合t,可以将每个文档表示为在t维空间R中的一个文档特征向量v。 向量v中第j个数值就是相应文档中第j个项的量度。 计算两个文档相似性可以使用上面的公式 4. 文档间相似性计算举例 词典:北京大学,体育馆,乒乓球,团体,决赛,中国队,总比分,奥运会,金牌,女子团体,雅典奥运会,男子单打,检测数据,神舟六号,轨道舱,太空,科学试验,金融,银行,监管,市场,经营,国际,货币,人民币 v1 = { 1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0 } v2 = { 0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,0,0,0,0,0,0,0,0 } v3 = { 1,1,1,0,1,0,1,1,1,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0 } 12.2.2 基于关键字的关联分析 基于关键字关联分析就是首先收集频繁一起出现的项或者关键字的集合,然后发现其中所存在的关联性 关联分析对文本数据库进行预处理,生成关键字向量,根据关键字查询向量与文档向量之间的相关度比较结果输出文本结果,然后调用关联挖掘算法 12.2.3 文档自动聚类 1、什么是文档自动聚类 2、文档自动聚类的步骤 3、文档自动聚类的类型 1、什么是文档自动聚类 文本聚类是根据文本数据的不同特征,将其划分为不同数据类的过程 其目的是要使同一类别的文本间的距离尽可能小,而不同类别的文本间的距离尽可能的大 2、文档自动聚类的步骤 (1)获取结构化的文本集 (2)执行聚类算法,获得聚类谱系图。聚类算法的目的是获取能够反映特征空间样本点之间的“抱团”性质 (3)选取合适的聚类IA值。在得到聚类谱系图后,领域专家凭借经验,并结合具体的应用场合确定阈值 (4)执行聚类算法,获得聚类结果 3、文档自动聚类的类型 平面划分法:对包含n个样本的样本集构造样本集的k个划分,每个划分表示一个聚簇 层次聚类法:层次聚类法对给定的样本集进行层次分解。根据层次分解方向的不同可分为凝聚层次聚类和分裂层次聚类 基于密度的方法:根据样本点临近区域的密度进行聚类,使在给定区域内至少包含一定数据的样本点 基于网格的方法:采用多分辨率的网格数据结构,将样本空间量化为数量有限的网格单元,所有聚类操作都在网格上进行 基于模型的方法:为每个簇假定一个模型,然后通过寻找样本对给定模型的最佳拟合进行聚类 12.2.4 文档自动分类 自动文档分类是指利用计算机将一篇文章自动地分派到一个或多个预定义的类别中 文档分类的关键问题是获得一个分类模式,利用此分类模式也可以用于其他文档的分类 有了一个模式之后,需要进行人工标记和训练,以确定这个模式的参数,然后才能进行自动的文档分类 12.2.5 自动摘要 文档的自动摘要就是利用计算机对文档进行处理,从中挑选出最能代表文档中心思想的句子或段落,经过修饰重组形成一段最能反映文档内容的文字;或者通过对文档的理解,重新生成一段能够表达文档主要内容的文字 1、自动摘要的分类 2、自动摘要的步骤 1、自动摘要的分类 主题摘要 信息摘要 纲目摘要 摘录型摘要 评论型摘要 2、自动摘要的步骤 对文档的预处理 过滤 分词 统计分析 提取摘要 输出摘要 对摘要的评估
文档评论(0)