第7章内容检索子系统设计及其核心算法！.docVIP

下载本文档

8
0
约7.11千字
约 26页
2016-05-03 发布于湖北
举报
版权申诉

第7章内容检索子系统设计及其核心算法！.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第7章内容检索子系统设计及其核心算法搜索引擎对检索结果排序的依据：检索词与网页内容的相似程度；网页质量评估结果；用户偏好情况；竞价情况。内容检索子系统：计算查询词与页面内容相关度。本章内容：传统检索模型中文本与查询相关度计算。 7.1 文本信息检索模型信息检索模型：布尔模型（Boolean Model）、向量空间模型（Vector Space Model）概率模型（Probabilistic Model）。检索模型间差异：如何定义和计算文档和检索词之间的关系，即计算文档D与查询词Q之间相关程度的函数f(Q,D)。 7.1.1 布尔模型查询词：一个布尔表达式，由关键词、逻辑运算符构成，表达用户希望文档所具有的特征。文档严格符合检索词的要求才被检索出来，因此布尔检索模型又称为“完全匹配检索” ( Exact - Match Retrieval ）。例：查找既含有“清华”又含有“大学”的网页查询词：“清华 AND 大学” 布尔模型逻辑算符及含义 1、逻辑与AND 两个变量的值都为“真”，结果为“真”，否则为“假”。例：检索“清华大学招生” “清华大学 AND 招生” A包含“清华大学”的页面； B包含“招生”的页面； A、B相交的部分（阴影部分）则为同时包含“清华大学”和“招生”两个关键词的网页。 2、逻辑或0R 如果其两个变量中有一个值为“真” , 则结果为“真”，否则结果为“假”。例：检索“北京大学”相关信息。 “北京大学 OR 北大” 网页只需要包含这两个关键词中的至少一个即可。 A含有“北京大学”的页面； B含有“北大”的页面； A和B中的所有页面（阴影部分）均应返回。 3、逻辑非NOT 用NOT表示不含有某个关键词的网页” 例：检索“除招生外的清华大学信息” “清华大学 NOT 招生” 在含有“清华大学”的网页中排除含有“招生”的网页。 A有“清华大学”的页面； B有“招生”的页面；从A中剔除属于B的页面查询词为布尔表达式：分别检索含有关键词 Kl、 K2 、K3、K4 的文档集合，记为 Cl、 C2、 C3 、 C4，然后通过下式运算，得到返回文档集合｛Docl , Doc2 , Doc3｝。缺点：返回结果是二元的，仅有相关、不相关两种状态，无法对文档进行排序。一般用户很难将搜索需求用布尔表达式表达出来。 7.1.2 向量空间模型向量空间模型的基本思想：事物可以用共同的原子单元表示，将原子单元看作基向量，构建n维空间，事物则对应n维空间的一个向量，这样可以用向量之间的差别来度量相似度。文档、查询词都用向量表示，相似度可以通过这两个向量的差别来度量。文本检索中使用向量空间模型：词项作为原子单元，用网页中词项构成一个大小为n的词汇表，词汇表就构成了一个n维空间，网页可用空间上的一个向量来表示。例：网页可以表示为如下n维向量：其中 Wij表示文档i在第j个词项上的权重，这样含d个页面的集合就可以表示为一个矩阵：矩阵中，每一行代表一个文档，每一列代表一维，文档在某个词项上的权重。例：有4个文档建倒排索引，去除停用词，假设某个词项在文档中的权重是它出现的次数，可以得到矩阵：根据矩阵，每个文档都可以表示为16维的向量。文档dl的向量：（1，1，1，1，1，1，0，0，0，0，0，0，0，0，0，0）。查询词“清华大学”的向量（1，1，0，0，0，0，0，0，0，0，0，0，0，0，0，0）。文本的相似度计算：例如：两个文档分别表示为： 1、内积相似度 D1= ( 0.5 , 0.8 , 0.2 ) , D2=（0.9 , 0.4 , 1. 0 ) 内积相似度： Sim ( Dl , D2 ) = 0.5 *0.9+0.8 * 0.4+0.2*1.0 = 0.97 缺点：文档越长，文档对应的向量权重就会越大，由于内积相似度中向量值越大，相似度越大，因此内积相似度会在较长文档上得到较大相似度。假设 D3 = ( 1.0 , 1. 6 , 0.4 ) ，D4 = ( 1 . 8 , 0 . 8 , 2 . 0 ) ， D1、D2中出现的词项在 D3、D4中分别加倍出现，D3、D4的长度分别是D1、D2的两倍。 Sim ( D3 , D4 ) = 1.0*1.8 + 1.6 * 0.8+0.4*2.0 = 3.88 应该有下式成立 Sim ( D3 , D4 ) =Sim ( Dl , D2 ) 内积相似度的问题在于它的相似度度量更偏向于较长的文档 2、余弦相似度与内积相似度不同在于对内积相似度进行了归一化。对于余弦相似度，我们可以想象它首先对文档向量进行归一化，使得每个文档对应的向量中的权重之和为 1 。向量的相似度只与夹角有关，