个性化搜索引擎技术的研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
个性化搜索引擎技术的研究

个性化搜索引擎技术的研究   摘 要:个性化搜索引擎是一种用户驱动网页排名结果的优化方式。基于本体和语义网,用户建模可以作出准确的查询结果,它包括:限定搜索方式、过滤搜索结果,以及成为搜索过程等3种方式。因此,个性化搜索引擎用户模型可被视为用户驱动个性化搜索服务的模型。研究结论是整合前人研究并且提出“用户行为(用户兴趣、用户偏好、用户查询记录)-用户文档(用户行为与关键词组)-用户建模(相关性算法与排名算法)-个性化服务”的新模型,可作为数字图书馆发展个性化搜索引擎的指引。??   关键词:信息检索;信息搜索;信息搜寻行为; 用户参与;个性化数字图书馆??   中图分类号:TP393.09 文献标识码:A 文章编号:1672-7800(2011)04-0106-03?お?   ??   作者简介:顾立平(1978-),男,台湾台北人,国立台湾大学图书资讯系博士后研究助理,研究方向为决策支援系统。      1 技术:优化搜索引擎的方法??   1.1 用户建模限定搜索方式??   一个简单(或直接的)实现个性化搜索引擎的方式,就是在用户搜索之前,预设它们的用户兴趣(interest)或用户偏好(preferences)。当用户登入系统后,系统在用户先前所指定的主题领域内,或者文献类型内,或者文献/网页发布时间内等,有范围地进行检索。这是一般数字图书馆信息检索系统所采用的个性化系统模式。目前,这种方式在个性化搜索引擎系统中的应用不多,但是具有两个重要趋势,值得数字图书馆参考。??   (1)整合用户兴趣的表单、用户偏好的设定以及网页排名算法,进行个性化搜索服务。具体技术线路为:结合经典的平面排名名单和搜索引擎,让用户通过选择具有层次结构的文件夹标签(主题),以交互方式查询,在浏览过程中进行知识提取、查询优化和搜索结果个性化。这种服务模式与个性化数字图书馆相似,但是更着重用户在浏览过程中的二次查询、根据结果进一步查询,以及结合其它情报分析系统的辅助查询等设计。可说是个性化数字图书馆的进化版本。??   (2)从用户行为中,建立用户文档,将用户文档与领域本体(关键词组的关联设定)结合,进行个性化搜索服务。具体技术线路为:分析用户的点击记录、估计用户兴趣建立本体、利用本体替代用户当前查询的词汇。当计算用户兴趣以优化查询过程时,需要能够有效地识别用户喜好以及为每个用户建立一个配置文件,一旦这样的配置文件是可用的,还需要在众多查询相匹配方案中确定用户兴趣集。因此,这套模式的“用户行为”是指用户兴趣和用户偏好。根据这套模式,可以发展出另一种类型的个性化数字图书馆。??   如前所述,搜索引擎和数据库检索系统的先天条件和解决问题模式不同,目前的个性化数字图书馆系统和个性化搜索引擎也有所不同。然而,以用户建模来限定搜索方式的个性化搜索引擎技术并不复杂,因为它的底层技术就是在用户检索式之前,加上系统预设的检索式,然后进行搜索。由于搜索引擎的查询(query)多半不会要求用户输入检索公式,而只让用户输入关键词(keyword),所以用户仿佛感觉到这是一种个性化搜索,事实上,多数数字图书馆所采用的这一技术只是隐藏起部分数据库检索系统的条件式。然而,在个性化搜索引擎当中,其底层技术是相同的,但是叠加技术却又千变万化,个性化数字图书馆可予以借鉴。??      1.2 用户建模过滤搜索结果??   如果用户建模限定搜索结果中的用户兴趣和用户偏好交织成一张渔网,那么用户建模过滤搜索结果中的用户兴趣和用户偏好就是一个双层漏斗。其原理是相同的,就是把搜索结果进行删选或过滤,前者发生在搜索之前,后者发生在搜索之后。不过,后者的底层技术相对来说较为复杂。目前,这种方式在个性化搜索引擎系统中的应用较多,具有两个重要趋势,值得数字图书馆参考。??   (1)根据网页内容,进行数据元(文献或网页内容的最小单位,其概念与元数据不同,其“元meta”是指单位unit而非后设post-的概念)拆解与分析。具体技术线路为:根据结构化网页记录(record)发展一项封包技术(wrapper),包括:以删选规则(filtering rules)过滤无关信息、以树状匹配算法(tree matching algorithm)将数据抽取提速、以频率算法检测数据元的数量和规模、以数据比对算法进行迭代和析取,以及用合并和分割数据法来解决数据元识别的问题。这种模式可以强化元搜索引擎对大量网站数据的处理速度,同时让个性化搜索引擎跨越异构资源,在资源集成的状况下还能达到个性化服务功能。??   (2)从文献内容中抽取关键词汇,并结合用户检索记录,建立用户文档以进行个性化服务。具体技术线路为:从查询结果的网页片段去识别相关查询词汇,同时用凝聚聚类算法产生个性化查询

文档评论(0)

erterye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档