- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于用户行为个性化搜索建模
基于用户行为个性化搜索建模
摘要: 关键词: 中图分类号: 文献标志码: A文章编号: 2095-2163(2017)06-0005-04
Abstract: The current search algorithm generally ignores the users interest behavior. It just relies on the surface of the keywords to predict the users search preferences, to provide users with contents automatically. This kind of search algorithm cannot reflect users real needs deeply. It does not customize a personalized search model according to the users longterm search habits and search interests. This paper proposes a personalized search model based on users behavior when they browse websites, such as the time, types of websites and whether there are any further actions such as saving or copying when browsing the webpage. All of these can enrich contents about personalized search model proposed in this paper,which makes the search algorithm be more accurate and close to the users real needs.
0引言
随着互联网逐渐融入人们的日常生活,网络数据呈指数增加,如搜狗、百度等搜索引擎可以为用户带来更方便的数据查找,用户对数据查找的准确性要求也越来越高,希望随时随地地找到所期待的数据,使得数据对于人们来说是更加透明、获取更加快捷、更加智能,创造更加舒适化、安全化、透明化的信息获取环境。中国互联网络信息中心公布了第 39 次《中国互联网络发展状况统计报告》,截止2016年12月,我国网民规模达7.31亿,全年共计新增网民4299万人[1]。由此可见,网络早已深入普通民众的日常生活中,正因为当前网络环境中的数据信息流量十分庞大,网民们才对网络搜索的准确度提出了更高的要求,然而当前众多搜索引擎的搜索准确度均为有限,每个人的上网习惯和事物喜好倾向的不同也就导致了搜索引擎“众口难调”的现状。因此,本文研究的是在基于用户日常的上网习惯中提取用户的兴趣点,并融合计算用户的兴趣度,再进一步设计建立用户的个性化搜索模型,也就相当于为用户量身打造了一个专属于某用户的搜索引擎,以此来提高搜索的准确度。
1用户浏览行为分析
大量研究分析得出,用户对网页的兴趣度通常体现在用户的浏览行为上。用户的许多浏览行为都能映射出用户的兴趣和偏好。例如:浏览网页的时间、浏览网页的类型、在网页中进行保存、复制等操作、把网页加入收藏夹、访问网页的次数等行为都在一定程度上表现出用户的兴趣[2]。
用户兴趣度计算的最小浏览组合为以下五种:保存页面、打印页面、将页面加入收藏夹、访问同一页面的次数、在页面上的浏览时间。分析这五种浏览行为之间的关系可以发现,如果用户进行了收藏页面、保存页面、打印页面等操作,则说明对其兴趣度较高。除此之外,如果用户在浏览页面时对页面内容有复制、粘贴、剪切等行为的话,也从侧面反映了用户对该页面有着较浓的兴趣。
用户的各种浏览行为之间的关系既各自独立,又相互联系,而用户本身的浏览习惯也有着显著不同,因此选择哪些浏览行为来分析用户的兴趣就尤显其研究存在的重要性。若仅选择少数几个浏览行为,则容易导致用户兴趣的精度不高,但选择过多又会造成计算方法的繁冗复杂。经过对用户浏览行为的综合考虑,本文选择了从用户的实际浏览动作、对页面的访问次数、在页面上的浏览时间这三个方面来估算用户的兴趣度。
2基于用户行为的兴趣度估算
如果用户在某时间内依次共浏览了多个页面或者多次访问同一个页面,记用户在该时间内浏览的各页面为ω1, ω2, ω3, …, ωn。在分析用?舻匿?览行为时,用户的实际浏览动作、对页面的访问次数、在页面上的浏览时间这三类典型的浏览行为近似地代替所有的浏览行为[3]。
文档评论(0)