- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
6文本和Web挖掘研讨
数据仓库与数据挖掘 第六章 文本和Web挖掘 第六章 文本和Web挖掘 6.1 引例 6.2 文本挖掘 6.3 Web挖掘 第六章 文本和Web挖掘 6.1 引例 6.2 文本挖掘 6.3 Web挖掘 6.1 引例 乒乓球女团中国夺冠 第33金超越雅典奥运创造历史 [文本1] 神舟六号轨道舱正常运行60天 取得大量科学数据 [文本2] 乒乓男单决赛颁奖 中国三虎将包揽金银铜牌 [文本3] 这三段文本中哪两段文本在内容上更接近? 如果前两个文本各代表一类,那么第三个文本应该归为其中的哪一类? 第六章 文本和Web挖掘 6.1 引例 6.2 文本挖掘 6.3 Web挖掘 6.2 文本挖掘 6.2.1 文本信息检索 6.2.2 文本分类 6.2.3 自动摘要 6.2 文本挖掘 6.2.1 文本信息检索 6.2.2 文本分类 6.2.3 自动摘要 6.2.1 文本信息检索 信息检索:泛指用户从包含各种信息的文档集中查找所需要的信息或知识的过程。 1. 信息检索模型 2. 信息检索的性能评价 3. 基于相似性的检索 4. 文档间相似性计算举例 1. 信息检索模型 布尔模型:将用户查询表示成由关键词及and、or、not组成的布尔表达式,检索过程是在一个倒排索引中实现的。 向量空间模型:有一特征表示集,特征通常为字或词。用户的查询与文本都表示成特征向量,其中每一维为一个特征,每个特征用权值表示。 概率模型:最简单的概率模型是二值独立检索模型(BIR)。BIR模型可根据用户的查询,将所有文档集中的每个文档分为两类,一类与查询相关,另一类与查询不相关。 2. 信息检索的性能评价 查准率(Precision)是检索到的文档中的相关文档占全部检索到的文档的百分比,它所衡量的是检索系统的准确性。 查全率(Recall)是被检索出的文档中的相关文档占全部相关文档的百分比,它所衡量的是检索系统的全面性。 3. 基于相似性的检索 给定一个文档集合D和一个项集合T,可以将每个文档表示为T维空间中的一个特征向量V。 向量V中第j个数值就是相应文档中第j个项的权值(如:tf或者tf*idf)。 计算两个文档相似性可以如下公式: 4. 文档间相似性计算举例 词典:北京大学,体育馆,乒乓球,团体,决赛,中国队,总比分,奥运会,金牌,女子团体,雅典奥运会,男子单打,检测数据,神舟六号,轨道舱,太空,科学试验,金融,银行,监管,市场,经营,国际,货币,人民币 v1 = { 1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0 } v2 = { 0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,0,0,0,0,0,0,0,0 } v3 = { 1,1,1,0,1,0,1,1,1,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0 } 6.2 文本挖掘 6.2.1 文本信息检索 6.2.2 文本分类 6.2.3 自动摘要 6.2.2 文本分类 文本分类是指利用计算机将一篇文档自动地分派到一个或多个预定义的类别中。 文本分类的关键问题是获得一个分类模型,利用此分类模型可以用于其他文档的分类。 典型的文本分类模型:SVM 有了一个模型之后,需要进行人工标记和训练,以确定这个模型的参数,然后才能对文本进行自动分类。 6.2 文本挖掘 6.2.1 文本信息检索 6.2.2 文本分类 6.2.3 自动摘要 6.2.3 自动摘要 自动摘要就是利用计算机对文档进行处理,从中挑选出最能代表文档中心思想的句子或段落,经过修饰重组形成一段最能反映文档内容的文字;或者通过对文档的理解,重新生成一段能够表达文档主要内容的文字。 1、自动摘要的分类 2、自动摘要的步骤 1、自动摘要的分类 主题摘要 摘录型摘要 评论型摘要 2、自动摘要的步骤 对文档的预处理 过滤 分词(针对汉语) 统计分析 提取摘要 输出摘要 对摘要的评估 6.2 文本挖掘 6.2.1 文本信息检索 6.2.2 文本分类 6.2.3 自动摘要 第六章 文本和Web挖掘 6.1 引例 6.2 文本挖掘 6.3 Web挖掘 Web挖掘的概念和分类 Web数据挖掘是用数据挖掘技术在Web文本和服务器中自动发现和提取感兴趣的、有用的模式和隐含的信息。 6.3 Web挖掘 6.3.1 Web内容挖掘 6.3.2 Web结构挖掘 6.3.3 Web使用挖掘 6.3 Web挖掘 6.3.1 Web内容挖掘 6.3.2 Web结构挖掘 6.3.3 Web使用挖掘 6.3.1 Web内容挖掘 1、Web内容挖掘的主要内容 2、主流的Web搜索引擎 1、Web内容挖掘的主要内容 对搜索引擎的查询结果作进一步的处理,得到更为精确和有用的信息,以增强搜索引擎的内容查询功能。 对H
您可能关注的文档
最近下载
- 体检中心运用PDCA降低体检中心体检者漏检率品管圈成果汇报书.docx VIP
- 《就业与创业指导》第1课-绪论 教案.doc VIP
- 标准图集-19J305 重载及特殊重载、轨道楼地面.pdf VIP
- 高教社2024商务礼仪第四版教学课件-2024-04商务拜访接待礼仪.pptx VIP
- 2023年6月新高考全国一卷读后续写真题 详讲(写作比赛)课件 高考英语作文复习专项.pptx VIP
- 内分泌科动态试验操作规范.pptx VIP
- 涂料印花助剂及其应用.pptx VIP
- 高教社2024商务礼仪第四版教学课件-2024-03商务交往礼仪.pptx VIP
- 川教版生命生态安全一年级上册第18课 我是小主人 教学设计.pdf VIP
- DB32T 2857-2015 玉米产量现场测定操作规程 .docx VIP
文档评论(0)