主题信息搜索系统中搜索策略研究.docVIP

下载本文档

1
0
约6.65千字
约 13页
2018-11-03 发布于福建
举报
版权申诉

主题信息搜索系统中搜索策略研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

主题信息搜索系统中搜索策略研究

主题信息搜索系统中搜索策略研究　　摘要：针对主题搜索引擎反馈信息主题相关度低的问题，提出了将遗传算法与基于内容的空间向量模型相结合的搜索策略。利用空间向量模型确定网页与主题的相关度，并将遗传算法应用于相关度判别，提高主题信息搜索的准确率和查全率。在Heritrix框架基础上，利用Eclipse 3.3实现了相应功能。实验结果表明，搜索策略改进后的系统抓取主题页面所占比例与原系统相比提高了约30%。　　关键词：搜索引擎；搜索策略；遗传算法；空间向量模型　　中图分类号：TP319 文献标识码：A 文章编号文章编号2014）001008904 　　基金项目基金项目：中央高校基本科研业务费专项资金项目（ZZQ10011）　　作者简介作者简介：张小琴（1974），女，中南民族大学图书馆馆员，研究方向为智能移动代理、下一代搜索引擎；王晓辉（1988-），男，中南民族大学电信学院硕士研究生，研究方向为下一代搜索引擎。　　0 引言　　主题信息搜索系统服务于特定的应用领域，其任务是获取与主题相关的页面，无需遍历全网。在主题信息搜索系统中，搜索策略是影响系统性能的关键。常用的主题搜索策略有：基于网页链接结构的搜索策略和基于内容评价的搜索策略。其中，PageRank[1]和Hits[2]是基于链接结构的搜索策略，Fish算法[3]和Shark算法[4]是基于内容评价的搜索策略。这些搜索策略存在主题漂移、忽略链接结构信息，以及在预测网页的重要程度方面存在不足等问题。　　基于此，本文在目前常用的主题爬虫Heritrix[5]框架基础上，将遗传算法与基于内容的空间向量模型相结合改进其搜索策略。通过在搜索的初始阶段引入高质量的种子集合，搜索过程中结合Hub网页对主题的贡献，以及向量空间模型对于网页主题的判断，进行交叉变异操作。这一方面提高了网页的搜索质量，另一方面也扩大了搜索范围。　　1 向量空间模型及相似度计算在主题信息搜索系统中，文本特征表示是关键的一步[6]。在大规模文本处理中，向量空间模型[7]是一种效率较高的文本表示模型，是当前对自然语言处理时采用的主流模型。向量空间模型（Vector Space Model：VSP）是把文本的内容简化处理后，生成在???量空间中的向量运算，并利用在空间中的某种关系来表达语义上的相似程度。当某一文档被确定为空间向量模型时，通过计算向量的相似度来衡量文档之间的相似性。　　向量空间模型的基本要素包括：①文本内容（Document）：通常指某个网页中所有文字信息内容；②项（Term）：指字、词语、词组等基本单位要素；③权重（Weight）：对于某个含有M个项的文本内容X（T1，T2，T3，…，TM），项被赋予一定的权重，体现项在文本中的重要程度，可表示为D=（T1，W1，T2，W2，T3，W3…，TM，WM）；④空间模型（VSM）：设一文本X（T1，T2，T3，…，TM），为了方便分析，不考虑那些重复出现且有先后次序的项，把T1，T2，T3，…，TM看成是一个M维的坐标，W1， W2， W3…，WM分别对应坐标的值，这样D=（T1，W1，T2，W2，T3，W3…，TM， WM）被视为一个M维的向量。　　权重的计算是基于词频TF，项的词频是指某个单词在文本中出现的次数，TF的值越高权重就越大。本文对TF作归一化的权重计算，将文本中所有项对应的TF值在[0，1]之间进行归一化处理。可采用以下几种方法：　　（1）最大值归一化：Wi=TFiMaxiTFi。　　（2）加强最大归一化：Wi=0.5+0.5×TFiMaxiTFi。　　（3）余弦归一化：Wi=TFi∑iTF2i。　　文本相似度是反映两个文本之间相关程度的统计量，相似度的数值一般定义为[0，1]之间，如果文本之间的相似度为1，说明两个文本完全相同，完全不同时为0，可以借助空间向量模型进行评价。在空间向量模型中，相似度的计算方法有内积法、距离函数法、Jaccard系数法、余弦法，本文采用余弦法进行相关度计算。利用文档中出现的词条对文档建立D=（T1，W1，T2，W2，T3，W3…，TM，WM）的空间向量模型。假设Di、Dj是要计算相关度的页面，页面的相关度是计算两个页面向量的余弦值。计算公式如下：Sin（Di，Dj）=cosθ=∑Mk=1Wi，k×Wj，k∑Mk=1W2i，k∑Mi=1W2j，k 　　2 算法设计结合遗传算法和基于文本内容的空间向量模型，利用遗传算法的全局查优特点保证搜索的整体性，以空间向量模型确定主题相关度。将遗传算法应用到主题信息搜索系统中进行查找链接，在查找过程中不断选择变异优化，对搜索过程进行启发式引导。把待搜索的页面集看作遗传因子，首先初始化种子集合，通过爬虫抓取到