- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于用户兴趣模型构建与个性化搜索算法研究.doc
基于用户兴趣模型构建与个性化搜索算法研究
摘要:为准确有效地识别出用户感兴趣的信息,该文构建了一个简单的基于用户兴趣模型的个性化搜索系统。该系统借助开源搜索引擎Nutch和Solr全文搜索服务器挖掘用户的浏览数据和点击行为,设计基于用户点击行为的个性化PageRank算法,实现了面向用户的个性化搜索。实验过程中,通过和未使用个性化搜索算法的系统比较,实验结果得出:基于用户兴趣模型构建的个性化搜索系统会根据用户兴趣模型和个性化搜索算法对搜索的结果进行优化和排序,能更加注重用户的兴趣体验,可以提高搜索引擎的准确度,使用户对查询结果更加满意。
关键词:用户兴趣模型;个性化搜索;动态更新策略
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2016)18-0001-04
1 概述
随着Internet技术的快速发展,人们通过Internet可以快速、便捷地获取大量信息。然而,目前存在的搜索引擎仍然存在同步性差、检索方式单一、信息服务方式被动等不足,没有考虑到不同的用户有着各自的兴趣爱好,使查询结果不能根据不同用户进行优化,而个性化搜索可以帮助用户最快最简单地找到自己需要的内容或网站。因此,个性化搜索服务成为当前一个热门的研究课题。
个性化搜索对于提高搜索信息的准确度具有重要意义,研究人员已做了一些有意义的工作。中南民族大学的张小琴、王晓辉[1]等人对现有的主题信息搜索系统进行了改进,使其具有动态学习功能,能够通过分析用户访问数据来建立用户兴趣模型,并利用该模型对搜索结果进行个性化处理和筛选,从而达到个性化搜索的目的,但是,其由于搜索引擎不能准确理解网页内容的语义,简单的利用词语匹配、统计分析和相关分析等算法在一定程度上会造成理解错误。董富江、杨红等人[2]设计的Web页面个性化搜索系统提出了一个Web页面搜索系统架构,给出了系统中用户个性化信息存储方法。但是,该系统难以使用户有效表达查询需求,导致出现搜索结果不理想的情况。因此,如何建立成熟的用户兴趣模型和个性化结果排序算法已成为个性化服务研究的热门课题。
本文针对目前搜索引擎不能根据不同用户调整搜索页面的缺陷,在现有搜索引擎技术为基础上进行改进,以减少用户使用的复杂度为原则,提出了一种用户兴趣模型,它通过搜集用户浏览页面的历史记录和点击行为,并对传统的个性化搜索算法进行改进,以此来解决目前搜索引擎存在的不足,从而提高搜索引擎的准确度,使用户对搜索结果更加满意。
2 相关技术
2.1 个性化检索模块
个性化检索模块可以对各个用户在不同时间段的兴趣爱好,为用户提供更高质量的搜索结果。通常的个性化检索模块主要包括:网络爬虫、索引、查询机、接口模块、个性化模块、过滤器、用户兴趣模型数据分析等。[3]在此基础上,本文增加了个性化排序、个性化模块、用户兴趣模型三个模块,其中个性化排序模块和个性化兴趣库是本模型的关键部分,其功能分别如下:
1)个性化模块:通过用户兴趣库中的数据分析各个用户的查询请求,从而使搜索引擎能够根据不同用户的行为进行相应的数据处理。
2)个性化兴趣库:主要用于存储各个用户的兴趣爱好数据。
3)个性化排序模块:对搜索后的结果重排序,使用户对搜索结果更加满意。
2.2 Nutch技术
Nutch[4]是一个开源搜索引擎,主要通过Java 来实现,其结构主要由爬虫、索引和搜索三个模块组成。Nutch旨在让使用者能够快速简便地配置高质量的Web搜索引擎。爬虫模块[5]用于为从网络中抓取的网页建立索引,索引模块是其余两个模块的接口,而搜索模块主要利用用户查询的关键词得到搜索结果。
2.3 Solr技术
Solr[6]是基于Lucene的共性能的全文搜索服务器,主要通过Java来实现。它利用Lucene的可扩展功能,形成一个单独的高质量的企业级搜素服务器。其可以通过丰富的查询语言实现系统的可扩展性。另外,Solr通过优化信息查询功能,使用户对Web应用程序的开发使用更加便捷,其主要具有垂直搜索、缓存高效灵活、搜索结果高亮显示、分布式搜索、支持数据库导入、易于操作管理等特点。
2.4 中文分词技术
由于计算机不能直接识别搜索到的自然语言,所以必须把搜索结果转换成计算机可理解的格式。在中文文档中,单位是以单个汉字为基础,而在自然语言中,词是最小的、不可分割的数据,因而需要把每个语句分解成有意义的词。所以在处理中文数据时,必须解决中文分词的问题。
目前,IKAnalyzer中文分词系统已经发展到为基于Java的通用分词模块,同时它独立于Lucene,并提供了对Lucene的默认优化实现[7]。它采用特有的“正向迭代最细粒度切分算法”,具有80万字
您可能关注的文档
最近下载
- 眼外伤ppt课件-眼外伤健康教育课件.ppt VIP
- 《新时代思想读本》3.2新时代新征程课件.pptx VIP
- 2024-2025学年初中信息科技湘教版2024七年级上册-湘教版2024教学设计合集.docx
- 人教鄂教版科学四年级上册全册教学设计教案.doc
- DB11T 945.1-2023建设工程施工现场安全防护、场容卫生及消防保卫标准 第1部分:通则.pdf VIP
- 外研版六年级(上册)M4U2.ppt VIP
- 大学课程思政案例(高校课程思政案例)-思政案例内容整理.docx VIP
- 《无人机综合监管与航路规划》全套教学课件.pptx VIP
- (优质!)Amfori BSCI社会责任验厂全套管理手册及程序文件.docx VIP
- 自-电大__电工电子技术总复习题及答案 .doc VIP
文档评论(0)