基于LuceneFlash网络检索研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于LuceneFlash网络检索研究

基于LuceneFlash网络检索研究   摘 要 垂直搜索引擎作为人们日常工作和学习获取信息资源的重要工具而存在。随着资源信息的急剧膨胀,垂直搜索引擎暴露出很多问题。提供真正智能化的根据用户兴趣而进行资源信息搜索的思路,并通过一个Flash垂直搜索引擎进行测试和实验,完善论文所得出的结论。   关键词 Flash;垂直搜索引擎;用户行为分析   中图分类号:TP393.09 文献标识码:B   文章编号:1671-489X(2015)02-0041-03   在当今社会,网络上包含了各种各样的网络资源,如文本、图片、音乐、视频、Flash等。Flash资源虽然作为重要的网络资源存在,但对它所做的研究并不多,远不如对其他几种资源所做的研究,而且相应的专业搜索研究也是凤毛麟角。因此,对Flash这种资源的准确搜索的研究已成为当前业界关注的重点。   如何让用户的搜索结果符合用户最想要的结果,是各大搜索引擎关注的重点,那么基于用户行为的搜索无疑已成为智能化搜索所必备的技术要求,而基于用户的行为分析的核心是如何了解用户,用户行为的含义表示,即用户的兴趣分析。那么,基于Flash的用户兴趣分析就成为智能化Flash专业搜索引擎所关注的核心。   下面就本研究展开讨论,在专业Flash搜索引擎中植入用户行为跟踪程序,根据用户的访问记录,过滤掉用户的无效访问,然后对用户兴趣点进行建模、归类及修改,并指导智能化Flash专业搜索引擎做出改进。   1 相关研究概述   在有效的用户行为数据挖掘分析的相关研究中,针对网络用户上网信息的采集、加工处理、过滤及分析,大多包括两种途径:用户的网络日志;网站用户踪迹跟踪。   1)在网络日志中,可获取记录用户对显示结果中的点击次数,记录用户的浏览时长,以及回访率、收藏率、点击率等。   2)网站用户踪迹跟踪,可获取用户IP、访问时间点以及上网用户的浏览操作等。   通过上述获取的信息量,可对用户的上网兴趣进行分析得出相应模型,进而了解用户特点,以此作为根据修改网站内容,改变网站风格,从而满足更多用户需求,提高网站访问效率。   2 用户行为分析及建模   在本文涉及的Flash搜索引擎中,搜索的基本条件有六个:名称、关键词、逻辑场景数、类别、交互性、视觉场景数。在这六个检索条件上可对用户行为进行跟踪,进而了解用户的兴趣点。   用户行为特征 对用户上网行为进行分析,可以得出用户上网大体有以下内容。   1)搜索关键词及选择条件:可以用数据库技术将用户的搜索信息存入数据库,其中可以记录网络用户的需求及兴趣点,也包含相关的搜索页面,从而对用户进行兴趣分类及建模。   2)网络日志:可通过网络技术,对用户的IP、访问点击数、访问浏览时长等进行进一步分析及过滤错误信息和数据,对建模数据进行整合分类。   3)除了上述显示信息外,还可对用户的注册信息进行处理,结合其访问内容、访问特点进而对用户的行为进行更精确的定位分类分析。   通过上述分析,相比于传统的搜索引擎的高匹配率,面向用户特性的个性化智能搜索引擎更符合用户需求及特点,从而受到更多关注度与使用率。为了能更好地阐述用户兴趣在搜索引擎的使用中的重要性,文中将着重分析其实现过程。   用户兴趣建模 首先,对用户行为的记录结果进行除杂过滤,包含对存入用户行为数据库中的没有进行搜索的用户进行删除处理,对有效数据进行统计处理,处理结果包含用户IP、用户职业、用户搜索条件、用户输入内容、用户访问频率。对每个用户用数组fre:{IP、职业、搜索条件、搜索信息、访问数}来表示。然后对访问统计数据进行建模,如图1所示。从图1可清楚地看出,当用户进行资源检索的时候,首先进行用户兴趣模式匹配,对适合用户的条件进行提取,并将这些条件加入当前检索条件中,从而把符合上述两种条件的搜索结果返回给用户,一方面满足用户当前的搜索条件,另一方面满足用户的个性特征。   3 项目实现   技术特点 文中使用的技术是成熟的搜索技术Lucene,   它是一个基于Java的全文信息检索包,但不是一个完整的搜索应用功能。目前Lucene是Apache Jakarta中的一个开源项目,也是目前最为流行的基于Java的开源全文检索工具包,有以下几个特点。   1)索引文件格式独立于应用平台。Lucene定义了一套以8位字节为基础的索引文件格式,使得兼容系统或者不同平台的应用能够共享建立的索引文件。   2)在传统全文检索引擎倒排索引的基础上,实现分块索引,能够针对新的文件建立小文件索引,提升索引速度。然后通过与原有索引的合并,达到优化的目的。   3)设计了独立于语言和文件格式的文本分析接口,索引器通过接受Token流完成索引文件的创立,用户扩展新

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档