网站大量收购独家精品文档,联系QQ:2885784924

信息检索与web挖掘.pdf

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息检索与web挖掘

信息检索与web搜索 目录 1. 信息检索中的基本概念 2. 信息检索模型 3. 关联性反馈 4. 评估标准 5. 文本和网页的预处理 6. 倒排索引及其压缩 ∗Web搜索是信息检索(IR)的一个分支 ∗ IR :单个文档 文本数据库 ∗Web搜索:网页 1. 基本概念 查询形式: ∗ 关键词查询 ∗ 布尔查询 ∗ 短语查询 ∗ 邻近查询 ∗ 全文搜索 ∗ 自然语言查询 2. 信息检索模型 ∗ 作用:决定文档和查询的表示以及文档与用户查询相关 度的表示。 ∗ 种类:布尔模型,向量空间模型,语言模型,概率模型 ∗ 文档数据集:D ∗ 词汇表: = { , , ⋯, } ∗ 词权重:每个文档 中的词都有一个权值 ∗ 每个词是一个属性,每个权值是一个属性值 = , , ⋯, 2.1 布尔模型 用户查询和文档的关系 精确匹配 查询和检索的理论基础 布尔代数 文档和查询被表示为一组词 文档表示法 每个词的权值只有0和1 两种可能 布尔查询 查询词被AND ,OR ,NOT组合在一起 检索是基于二元决策规范的 文档检索 缺点:布尔检索没有部分匹配以及对检索文档做 排序的概念 2.2 向量空间模型VSM-1 :系统或者文件集中的文件总数 :词 出现在文档 中的次数 : 中 的正规化词频率 :词至少出现一次的文档数目 :词 的逆向文档频率 最终的词逆向文档频率权值 :文档 的长度 :数据集中文档的平均长度 2.2 向量空间模型VSM-2 文档表示法 文档被表示为一个权值向量,每个权值都是通过TF表,或者TF-IDF表,或者他 们得变异版本计算得到。文档 中 的权值 可以是任何值 ∗ 词频率表(TF表):文档 中 的权值就是在 中 出现的次数,定义为 ,也可进行正规化,即 。 缺点:没有考虑如果一个词出现在一个数据集的许多文档中,那么这个词将没有判别力。 ∗ 词逆向文档频率表(TF-IDF表):最有名的权值表,词的逆向文档频率,即 查询 一个查询的表示法和文档的表示法是一样。中每个词 的权值 的计算方法

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档