- 1
- 0
- 约4.77万字
- 约 65页
- 2016-10-13 发布于重庆
- 举报
200512中文Web搜索引擎日志挖掘研究_王继民doc
摘 要
本报告总结了作者在站期间的主要研究工作;对北大天网中文搜索引擎的用户日志进行了全面系统的研究和分析,具体包括以下五个方面的内容:
1.提出了一个Web搜索引擎日志挖掘的研究框架:主要包括日志挖掘研究的内容、数据集的选择、数据预处理的方法、所采用的技术、对搜索引擎系统的改进等;并对不同地域用户查询行为进行了对比分析。
2.分析了天网用户的一般行为特征:研究结果显示用户通常在一天内只进行1到2次内容不同的查询,多于2/3的用户点击了结果页面中的某些URL;多数中文用户输入的查询串中只含有一个词项并且包含中文字符,其中以2至4个汉字居多; 用户查看结果页面的时间大约是2到3分钟; 只有少数用户查看历史网页(或称网页快照)。用户日志中不同查询串、不同用户和点击不同URL的数量满足Heaps定律。
3.中文用户查询演化分析:对近5年天网用户的查询与点击行为进行了纵向分析,结果显示用户输入的查询串中所包含词项数量有明显增多的趋势,用户会话的长度逐年下降,用户查看的结果页面越来越少,且查看的时间间隔逐渐减少。查询串中所包含的汉字个数基本稳定。查询次数与点击次数的相关性逐渐减弱。整体用户群的查询主题迁移较快。
4.多任务中文Web查询研究:对天网用户的多任务(或称多个主题)Web查询进行研究和分析,结果显示多于1/3的用户进行多任务Web查询;超过1/2的多任务会话包含两个不同的主题并进行2~7次查询;多任务会话时间的均值是一般会话时间均值的两倍;天网用户的多任务查询主要有三个主题:计算机,娱乐和教育,近1/4的多任务会话中包含不确定的信息。
5.基于搜索引擎日志发现相关Web查询:提出了一种利用支持向量回归发现相关Web查询的新方法。对一个给定的Web查询,首先从用户的使用记录中抽取候选查询的五个量化指标查询次数点击次数词项点击URL的个数等;然后用手工标记部分训练数据模型
Abstract
This report is intended to present the researches that the author has done during the past two-years’ postdoctoral period. The author conducted a series of investigation on Web using mining in Tianwang, a large-scale Chinese search engine. The report includes five main parts as below.
1.A methodological framework is proposed in mining search engine logs. It includes what kinds of patterns to mine, how to select the data set, how to preprocess the logs, and what technologies to apply in the procedure. Furthermore, it also includes how to improve the performance of a search engine system based on these analysis, and a comparision of searching behaviors of users from different areas.
2. The user’s logs of Tianwang are investigated. The results show that only 1~2 queries with different content are carried out in one day by a user, and more than 2/3 of the users click some URLs in the result pages viewed. Most of queries contain only one term with Chinese characters and the most frequent number of Chinese words is 2~4. The main interval is from 2 to 3 minutes for the users viewing the result pages. Only a few of users viewed the historic web pages ( or called cached page
原创力文档

文档评论(0)