搜索引擎用户点击行为分析.PDFVIP

  • 50
  • 0
  • 约3.05万字
  • 约 9页
  • 2019-04-12 发布于湖北
  • 举报
第 25 卷  第 2 期 情 报 学 报 Vol. 25 , №2 2006 年 4 月 April ,2006 搜索引擎用户点击行为分析1) 王继民1 ,2  彭 波1 ( 1. 北京大学信息科学技术学院 , 北京 100871 ; 2. 中国科学院资源环境科学信息中心 , 兰州 730000) 基于大规模分布式搜索引擎系统 ———北大“天网”的用户点击记录 ,本文研究发现 :用户点击不同 URL 摘要    的数量遵从 Heaps 定律 ,点击URL 的频度频级服从类 Zipf 分布 , 点击 URL 与页面大小相关 ,点击 URL 具有时间局 部性 ,其顺序具有自相似性特征等一些具有普适性的规律。提出了利用点击日志确定相近查询词的一个新的有效 算法。这些研究结果对于掌握用户的搜索行为 ,完善搜索引擎系统的设计 ,提高检索服务的效率和质量具有重要 的意义。 搜索引擎  点击日志  用户行为  分布特征  相似查询 关键词    User Behavior Analysis for a Largescale Search Engine 1 ,2 1 Wang Jimin and Peng Bo ( 1. School of Electronics Engineering and Computer Science , Peking University , Beijing 100871 ; 2 Information Centerfor Resources and Environment Science , CAS , Lanzhou 730000) Abstract   Tianwang Search Engine is a largescale search engine system which is now maintaining index of about 240 millions web pages and 20 millions ftp files. In this paper , we analyze the clickthrough data in the click log of the WWW search service of Tianwang. The results show that the number of unique URLs selected by users conforms to Heaps law , and the popularity versus rank for the URLs selected by users is well fit by a Zipflike distribution. The frequency of the URLs selected by users is correlated to their page size. The clicking of URLs also present high degree of locality. For a given query , a new and effective algorithm is

文档评论(0)

1亿VIP精品文档

相关文档