BP神经网络算法在个性化搜索排名中应用.docVIP

BP神经网络算法在个性化搜索排名中应用.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
BP神经网络算法在个性化搜索排名中应用

BP神经网络算法在个性化搜索排名中应用   摘要:介绍了利用BP神经网络算法,通过推理搜索词与环境关键词的关系强度,以及环境关键词对搜索结果排序的影响权重,从而智能地学习用户的搜索环境。通过搜索环境的智能设置,让用户得到更好的搜索体验。?   关键词:BP神经网络;搜索引擎结果排名?   中图分类号:TP   文献标识码:A   文章编号:1672-3198(2010)15-0315-02      1 引言?   自从上世纪90年代万维网的诞生开始,就注定我们将进入搜索引擎时代,可以说我们的生活已经离不开搜索引擎。当前流行的搜索引擎,如Google等搜索能力已经非常强大,可以说“只有想不到,没有搜不到”,而且检索时间通常在0.1秒以内。对于现在的搜索引擎而言,最重要的问题不是能否将所有资源索引到,或者检索速度是否快捷,最重要的问题是如何将符合搜索要求的结果呈现给用户。面对成指数倍增长的网络信息洪流,人们通过“关键词”这种传统的搜索方式检索到的网页,动辄数百万。如何在这浩如烟海的信息中快速找到自己想要的信息,成了现在所有搜索引擎用户最迫切的需求。解决搜索结果的准确性问题,实际上就是解决搜索范围和结果排名的问题。?   对于结果排名技术,经典的有Google的PageRankTM算法。它的核心思想是一个网页的质量和重要性可以通过其他网页对其超文本连接的数量来衡量。一个网页被其他网页引用得越多,其PR值就越高。这种算法,目前在通用搜索引擎领域,无疑是较为公正、合理的,但是,它依然没有解决用户的个性化需求。于是专门的个性化搜索引擎的概念应运而生,也成为了近年搜索引擎领域的热点。Google、Yahoo等已经相继推出了个性化搜索引擎创建平台,用户可以在web上根据提示快速建立自己的搜索引擎,创建自己的搜索环境,达到精简搜索范围、自定义排序的目的。?   但是,现在的自定义搜索还局限在静态的环境里。比如,用户在Google的平台上创建自己的搜索引擎,必须给出搜索范围(如*.znufe.省略),然后搜索引擎才会在这个范围内搜索,如果要扩展搜索范围,用户必须手动添加。还有,对于一些网站,用户可以给出自定义的排名权重,但是,这个权重是否合理,用户恐怕自己也不清楚。这时,如果能有一种人工智能,辅助用户决策,动态地改善用户搜索环境,无疑能加强用户的搜索体验。?   2 搜索引擎原理概述?   2.1 搜索引擎原理简介?   搜索引擎利用网络爬虫(Spider)程序,漫游访问网络,发现并收集多种类型的文档内容,然后将抓取的内容进行分析,一般包括分词、过滤、转换等工作(具体处理中与文档类型、搜索引擎的具体结构和算法密切相关)。之后,索引器将基于内容分析模块的输出生成索引项并最终建立索引保存到索引库中。用户输入查询语句,搜索引擎将查询语句进行分析,最终得到用户搜索的关键词,然后将包含这些关键词的搜索结果经过特定的排序算法返回给用户。?   2.2 通用排序算法?   在引言里我们提到了全球最大搜索引擎提供商Google的PageRank??TM?,又被译作“网页级别”或者“页面等级”,以下简称PR,是Google创始人之一的拉里?佩奇申请的专利技术。它的核心思想是一个网页的质量和重要性可以通过其他网页对其超文本连接的数量来衡量。一个网页被其他网页引用得越多,其PR值就越高。PR值的计算,主要包括三个因素:该网页的链入数量、该网页的链入网页本身的PR值,该网页链入网页本身的链出数量。PR值的计算公式:?   PR(A)=(1-d)+d?*∑ni=1PR(Ti)C(Ti)?   其中,?   ?PR(X)是指网页X的PR值;?   Ti是指网页A的第i个的链入网页;?   C(Ti)是指网页Ti的链出网页的数量;?   d是一个衰减因子,0d1,通常取值为0.85。??   PageRank??TM?技术在很大程度上避免和减少了人为因素,客观地将最恰当的检索结果呈现给用户。当然,纯粹利用PageRankTM显然不够,Google还在系统中整合了对链接的质量分析,包括分析:链接存在时间、链接位置、锚文本及格式、相关性、页面等级。影响Google排名的其他因素还包括:关键词在超文本中出现的次数(超文本匹配分析技术)、网站新旧度、内容的丰富程度、网站访问量等。?   2.3 引入环境关键词后的排序?   然而,无论是PageRankTM还是其他通用的搜索引擎排序技术都是针对所有的搜索引擎用户而提供的通用排序算法,它无法响应用户个性化需求。于是,近年来对于个性化搜索引擎的研究也越来越多,最著名的产品便是Google的自定义搜索引擎。?   Google的自定义搜索引擎向用户提供了一个创建个性化搜索引擎的平台,用户可以通过添加标签和关键字的方式人为改变排名顺序。例

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档