- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第7章 内容检索子系统设计及其核心算法
搜索引擎对检索结果排序的依据:
检索词与网页内容的相似程度;
网页质量评估结果;
用户偏好情况;
竞价情况。
内容检索子系统:
计算查询词与页面内容相关度。
本章内容:
传统检索模型中文本与查询相关度计算。
7.1 文本信息检索模型
信息检索模型:
布尔模型(Boolean Model)、
向量空间模型(Vector Space Model)
概率模型(Probabilistic Model)。
检索模型间差异:
如何定义和计算文档和检索词之间的关系,即计算文档D与查询词Q之间相关程度的函数f(Q,D)。
7.1.1 布尔模型
查询词:
一个布尔表达式,由关键词、逻辑运算符构成,表达用户希望文档所具有的特征。
文档严格符合检索词的要求才被检索出来,因此布尔检索模型又称为“完全匹配检索” ( Exact - Match Retrieval )。
例:查找既含有“清华”又含有“大学”的网页
查询词:“清华 AND 大学”
布尔模型逻辑算符及含义
1、逻辑与AND
两个变量的值都为“真”,结果为“真”,否则为“假”。
例:检索“清华大学招生”
“清华大学 AND 招生”
A包含“清华大学”的页面;
B包含“招生”的页面;
A、B相交的部分(阴影部分)则为同时包含“清华大学”和“招生”两个关键词的网页。
2、逻辑或0R
如果其两个变量中有一个值为“真” , 则结果为“真”,否则结果为“假”。
例:检索“北京大学”相关信息。
“北京大学 OR 北大”
网页只需要包含这两个关键词中的至少一个即可。
A含有“北京大学”的页面;
B含有“北大”的页面;
A和B中的所有页面(阴影部分)均应返回。
3、逻辑非NOT
用NOT表示不含有某个关键词的网页”
例:检索“除招生外的清华大学信息”
“清华大学 NOT 招生”
在含有“清华大学”的网页中排除含有“招生”的网页。
A有“清华大学”的页面;
B有“招生”的页面;
从A中剔除属于B的页面
查询词为布尔表达式:
分别检索含有关键词 Kl、 K2 、K3、K4 的文档集合,记为 Cl、 C2、 C3 、 C4,然后通过下式运算,得到返回文档集合{Docl , Doc2 , Doc3}。
缺点:
返回结果是二元的,仅有相关、不相关两种状态,无法对文档进行排序。
一般用户很难将搜索需求用布尔表达式表达出来。
7.1.2 向量空间模型
向量空间模型的基本思想:
事物可以用共同的原子单元表示,将原子单元看作基向量,构建n维空间,事物则对应n维空间的一个向量,这样可以用向量之间的差别来度量相似度。
文档、查询词都用向量表示,相似度可以通过这两个向量的差别来度量。
文本检索中使用向量空间模型:
词项作为原子单元,用网页中词项构成一个大小为n的词汇表,词汇表就构成了一个n维空间,网页可用空间上的一个向量来表示。
例:网页可以表示为如下n维向量:
其中 Wij表示文档i在第j个词项上的权重,这样含d个页面的集合就可以表示为一个矩阵:
矩阵中,每一行代表一个文档,每一列代表一维,文档在某个词项上的权重。
例:有4个文档
建倒排索引,去除停用词,假设某个词项在文档中的权重是它出现的次数,可以得到矩阵:
根据矩阵,每个文档都可以表示为16维的向量。
文档dl的向量:
(1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0)。
查询词“清华大学”的向量
(1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0)。
文本的相似度计算:
例如:两个文档分别表示为:
1、内积相似度
D1= ( 0.5 , 0.8 , 0.2 ) , D2=(0.9 , 0.4 , 1. 0 )
内积相似度: Sim ( Dl , D2 ) = 0.5 *0.9+0.8 * 0.4+0.2*1.0 = 0.97
缺点:
文档越长,文档对应的向量权重就会越大,由于内积相似度中向量值越大,相似度越大,因此内积相似度会在较长文档上得到较大相似度。
假设
D3 = ( 1.0 , 1. 6 , 0.4 ) ,D4 = ( 1 . 8 , 0 . 8 , 2 . 0 ) ,
D1、D2中出现的词项在 D3、D4中分别加倍出现,D3、D4的长度分别是D1、D2的两倍。
Sim ( D3 , D4 ) = 1.0*1.8 + 1.6 * 0.8+0.4*2.0 = 3.88
应该有下式成立
Sim ( D3 , D4 ) =Sim ( Dl , D2 )
内积相似度的问题在于它的相似度度量更偏向于较长的文档
2、余弦相似度
与内积相似度不同在于对内积相似度进行了归一化。
对于余弦相似度,我们可以想象它首先对文档向量进行归一化,使得每个文档对应的向量中的权重之和为 1 。
向量的相似度只与夹角有关,
您可能关注的文档
最近下载
- 发改价格[2007]670号监理收费标准.pdf VIP
- 发改价格【2007】670号《建设工程监理与相关服务收费管理....docx VIP
- 最新实用医学汉语-医学课件.ppt VIP
- 医学汉语教学大纲.doc VIP
- 水工建筑物外观质量评定标准.docx VIP
- 英语国际音标表(8个)打印版.doc VIP
- 升立德 E系列控制卡快速入门.pdf VIP
- 欧盟发布电池和废电池的新规(EU) 附中译文参照_182518812544822.pdf VIP
- 9.3抗日战争80周年阅兵九三阅兵小小爱国者探索手册PPT(优质ppt).pptx VIP
- 部编版六年级语文上册《 开国大典》PPT课件(含教案).pptx VIP
文档评论(0)