Web搜索引擎日志挖掘研究.docVIP

  • 41
  • 0
  • 约5.03万字
  • 约 65页
  • 2018-06-15 发布于福建
  • 举报
Web搜索引擎日志挖掘研究

摘 要 本报告总结了作者在站期间的主要研究工作;对北大天网中文搜索引擎的用户日志进行了全面系统的研究和分析,具体包括以下五个方面的内容: 1.提出了一个Web搜索引擎日志挖掘的研究框架:主要包括日志挖掘研究的内容、数据集的选择、数据预处理的方法、所采用的技术、对搜索引擎系统的改进等;并对不同地域用户查询行为进行了对比分析。 2.分析了天网用户的一般行为特征:研究结果显示用户通常在一天内只进行1到2次内容不同的查询,多于2/3的用户点击了结果页面中的某些URL;多数中文用户输入的查询串中只含有一个词项并且包含中文字符,其中以2至4个汉字居多; 用户查看结果页面的时间大约是2到3分钟; 只有少数用户查看历史网页(或称网页快照)。用户日志中不同查询串、不同用户和点击不同URL的数量满足Heaps定律。 3.中文用户查询演化分析:对近5年天网用户的查询与点击行为进行了纵向分析,结果显示用户输入的查询串中所包含词项数量有明显增多的趋势,用户会话的长度逐年下降,用户查看的结果页面越来越少,且查看的时间间隔逐渐减少。查询串中所包含的汉字个数基本稳定。查询次数与点击次数的相关性逐渐减弱。整体用户群的查询主题迁移较快。 4.多任务中文Web查询研究:对天网用户的多任务(或称多个主题)Web查询进行研究和分析,结果显示多于1/3的用户进行多任务Web查询;超过1/2的多任务会话包含两个不同的主题并进

文档评论(0)

1亿VIP精品文档

相关文档