第7章内容检索子系统设计及其核心算法!.docVIP

第7章内容检索子系统设计及其核心算法!.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第7章 内容检索子系统设计及其核心算法 搜索引擎对检索结果排序的依据: 检索词与网页内容的相似程度; 网页质量评估结果; 用户偏好情况; 竞价情况。 内容检索子系统: 计算查询词与页面内容相关度。 本章内容: 传统检索模型中文本与查询相关度计算。 7.1 文本信息检索模型 信息检索模型: 布尔模型(Boolean Model)、 向量空间模型(Vector Space Model) 概率模型(Probabilistic Model)。 检索模型间差异: 如何定义和计算文档和检索词之间的关系,即计算文档D与查询词Q之间相关程度的函数f(Q,D)。 7.1.1 布尔模型 查询词: 一个布尔表达式,由关键词、逻辑运算符构成,表达用户希望文档所具有的特征。 文档严格符合检索词的要求才被检索出来,因此布尔检索模型又称为“完全匹配检索” ( Exact - Match Retrieval )。 例:查找既含有“清华”又含有“大学”的网页 查询词:“清华 AND 大学” 布尔模型逻辑算符及含义 1、逻辑与AND 两个变量的值都为“真”,结果为“真”,否则为“假”。 例:检索“清华大学招生” “清华大学 AND 招生” A包含“清华大学”的页面; B包含“招生”的页面; A、B相交的部分(阴影部分)则为同时包含“清华大学”和“招生”两个关键词的网页。 2、逻辑或0R 如果其两个变量中有一个值为“真” , 则结果为“真”,否则结果为“假”。 例:检索“北京大学”相关信息。 “北京大学 OR 北大” 网页只需要包含这两个关键词中的至少一个即可。 A含有“北京大学”的页面; B含有“北大”的页面; A和B中的所有页面(阴影部分)均应返回。 3、逻辑非NOT 用NOT表示不含有某个关键词的网页” 例:检索“除招生外的清华大学信息” “清华大学 NOT 招生” 在含有“清华大学”的网页中排除含有“招生”的网页。 A有“清华大学”的页面; B有“招生”的页面; 从A中剔除属于B的页面 查询词为布尔表达式: 分别检索含有关键词 Kl、 K2 、K3、K4 的文档集合,记为 Cl、 C2、 C3 、 C4,然后通过下式运算,得到返回文档集合{Docl , Doc2 , Doc3}。 缺点: 返回结果是二元的,仅有相关、不相关两种状态,无法对文档进行排序。 一般用户很难将搜索需求用布尔表达式表达出来。 7.1.2 向量空间模型 向量空间模型的基本思想: 事物可以用共同的原子单元表示,将原子单元看作基向量,构建n维空间,事物则对应n维空间的一个向量,这样可以用向量之间的差别来度量相似度。 文档、查询词都用向量表示,相似度可以通过这两个向量的差别来度量。 文本检索中使用向量空间模型: 词项作为原子单元,用网页中词项构成一个大小为n的词汇表,词汇表就构成了一个n维空间,网页可用空间上的一个向量来表示。 例:网页可以表示为如下n维向量: 其中 Wij表示文档i在第j个词项上的权重,这样含d个页面的集合就可以表示为一个矩阵: 矩阵中,每一行代表一个文档,每一列代表一维,文档在某个词项上的权重。 例:有4个文档 建倒排索引,去除停用词,假设某个词项在文档中的权重是它出现的次数,可以得到矩阵: 根据矩阵,每个文档都可以表示为16维的向量。 文档dl的向量: (1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0)。 查询词“清华大学”的向量 (1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0)。 文本的相似度计算: 例如:两个文档分别表示为: 1、内积相似度 D1= ( 0.5 , 0.8 , 0.2 ) , D2=(0.9 , 0.4 , 1. 0 ) 内积相似度: Sim ( Dl , D2 ) = 0.5 *0.9+0.8 * 0.4+0.2*1.0 = 0.97 缺点: 文档越长,文档对应的向量权重就会越大,由于内积相似度中向量值越大,相似度越大,因此内积相似度会在较长文档上得到较大相似度。 假设 D3 = ( 1.0 , 1. 6 , 0.4 ) ,D4 = ( 1 . 8 , 0 . 8 , 2 . 0 ) , D1、D2中出现的词项在 D3、D4中分别加倍出现,D3、D4的长度分别是D1、D2的两倍。 Sim ( D3 , D4 ) = 1.0*1.8 + 1.6 * 0.8+0.4*2.0 = 3.88 应该有下式成立 Sim ( D3 , D4 ) =Sim ( Dl , D2 ) 内积相似度的问题在于它的相似度度量更偏向于较长的文档 2、余弦相似度 与内积相似度不同在于对内积相似度进行了归一化。 对于余弦相似度,我们可以想象它首先对文档向量进行归一化,使得每个文档对应的向量中的权重之和为 1 。 向量的相似度只与夹角有关,

文档评论(0)

我是追梦人 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档