- 1、本文档共65页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Web搜索引擎日志挖掘研究
摘 要
本报告总结了作者在站期间的主要研究工作;对北大天网中文搜索引擎的用户日志进行了全面系统的研究和分析,具体包括以下五个方面的内容:
1.提出了一个Web搜索引擎日志挖掘的研究框架:主要包括日志挖掘研究的内容、数据集的选择、数据预处理的方法、所采用的技术、对搜索引擎系统的改进等;并对不同地域用户查询行为进行了对比分析。
2.分析了天网用户的一般行为特征:研究结果显示用户通常在一天内只进行1到2次内容不同的查询,多于2/3的用户点击了结果页面中的某些URL;多数中文用户输入的查询串中只含有一个词项并且包含中文字符,其中以2至4个汉字居多; 用户查看结果页面的时间大约是2到3分钟; 只有少数用户查看历史网页(或称网页快照)。用户日志中不同查询串、不同用户和点击不同URL的数量满足Heaps定律。
3.中文用户查询演化分析:对近5年天网用户的查询与点击行为进行了纵向分析,结果显示用户输入的查询串中所包含词项数量有明显增多的趋势,用户会话的长度逐年下降,用户查看的结果页面越来越少,且查看的时间间隔逐渐减少。查询串中所包含的汉字个数基本稳定。查询次数与点击次数的相关性逐渐减弱。整体用户群的查询主题迁移较快。
4.多任务中文Web查询研究:对天网用户的多任务(或称多个主题)Web查询进行研究和分析,结果显示多于1/3的用户进行多任务Web查询;超过1/2的多任务会话包含两个不同的主题并进行2~7次查询;多任务会话时间的均值是一般会话时间均值的两倍;天网用户的多任务查询主要有三个主题:计算机,娱乐和教育,近1/4的多任务会话中包含不确定的信息。
5.基于搜索引擎日志发现相关Web查询:提出了一种利用支持向量回归发现相关Web查询的新方法。对一个给定的Web查询,首先从用户的使用记录中抽取候选查询的五个量化指标:被查询的次数,被查询的用户量,用户在反馈结果中的点击次数,与给定查询间的共有词项个数,点击相同URL的个数等;然后用手工标记部分训练数据,进而建立支持向量回归模型,依相关度的大小确定相关Web查询。
关键词:搜索引擎,用户日志,Web挖掘,多任务Web查询,相关Web查询
Abstract
This report is intended to present the researches that the author has done during the past two-years’ postdoctoral period. The author conducted a series of investigation on Web using mining in Tianwang, a large-scale Chinese search engine. The report includes five main parts as below.
1.A methodological framework is proposed in mining search engine logs. It includes what kinds of patterns to mine, how to select the data set, how to preprocess the logs, and what technologies to apply in the procedure. Furthermore, it also includes how to improve the performance of a search engine system based on these analysis, and a comparision of searching behaviors of users from different areas.
2. The user’s logs of Tianwang are investigated. The results show that only 1~2 queries with different content are carried out in one day by a user, and more than 2/3 of the users click some URLs in the result pages viewed. Most of queries contain only one term with Chinese characters and the most frequent number of Chinese words is 2~4. The main interval is from 2 to 3 minutes for the users vie
文档评论(0)