- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于天网搜索引擎高校用户娱乐搜索行为研究
基于天网搜索引擎高校用户娱乐搜索行为研究
【摘 要】 本文基于天网中文搜索引擎的日志对教育网用户的娱乐搜索行为进行研究。发现教育网用户检索艺人的频次分布符合幂律分布特征,说明艺人的被检率存在马太效应。用户进行娱乐搜索的时间特征和普通检索基本相似,但在全天某些时段呈现高峰期。不同类型高校用户进行娱乐搜索时的性别偏好存在明显差异。
【关键词】 搜索引擎用户日志Web挖掘娱乐搜索行为
A Research of the CERNet Users Entertainment Searching Behaviors
【Abstract】In this paper, the user log of Tianwang,a Chinese search engine system,is investigated to observe users’entertainment searching behavior.The result shows that the frequency distribution of Chinese pop-star being searched is power-law distribution,which implies there is a Matthew Effect here.The time distribution of users’entertainment searching behavior bears some similarity to that of their general searching behavior,although there are several rush hours when users retrieve entertainment information more frequently during a day.Users from different types of universities prefer different genders when they retrieve entertainment information.
【Key words】 Search EngineUser’s LogWeb MiningEntertainment Searching Behavior
1引言
搜索引擎作为互联网应用的一个重要部分,其海量日志中蕴含着很多潜在信息值得挖掘,其中的一个重要方面就是对于搜索引擎用户行为的研究。目前学界对于基于大规模搜索引擎日志的用户行为研究集中在对用户的普通使用行为的研究上。如文献[1]对英文搜索引擎AltaVista、文献[2]对搜狗搜索引擎、文献[3,4]对北大天网等的日志进行分析,得出搜索引擎用户的基本行为特征,如使用频次分布、查询词长度、会话时间、点击习惯、访问时间的分布、检索词的局部相似性等;在此基础上,进而研究用户查询的多任务性[5~7]、用户查询的演化趋势[7,8]以及用户检索目的分析[3]等深层问题。
本文试图研究特定用户的特定信息检索行为的特征,为此,本文以天网搜索引擎[9]日志为研究对象,对中国教育网中不同类型高校用户的娱乐搜索行为特征进行了分析对比,并对分析结果的传播学意义进行一些初步的探讨。
本文所论述的“娱乐搜索行为”特指用户使用搜索引擎检索娱乐圈中比较活跃的艺人姓名,以获取相关娱乐信息的行为。选择娱乐搜索作为我们进行用户行为研究的对象,一方面是因为娱乐人物的列表比较容易获取和分类,并且检索娱乐信息是天网用户使用的一个重要功能,对天网用户的娱乐搜索行为进行研究,具备一定的代表性。更重要的原因在于,不同类型用户的娱乐搜索行为会具有比较明显的差异,比如女性用户和男性用户检索时偏好的艺人就具有明显不同,这使得对本文的研究结果进行探讨具备了实际意义。
之所以选择天网搜索引擎作为研究对象,是因为天网是目前国内最大的非商业性搜索引擎,其用户群体比较固定,主要为教育网用户。教育网用户主要来自国内的各高校,通过查询高校的IP网段可以有效识别用户的来源高校,这样通过对比不同类型的高校用户,比如文史类高校和理工类高校用户之间检索行为的差异,就可以推断出不同类型的用户检索行为的差异。
本文的具体安排如下:第一部分,探讨天网用户娱乐搜索行为的基本特征,如用户来源、艺人被检率分布、检索时间分布等,并探讨其与一般检索行为的差异。第二部分,探讨不同类型高校用户检索艺人的偏好现象,引入“偏好值”的概念描述艺人被不同类型用户检索所偏好的程度,并基于该数值进行聚类分析。第三部分,总结。
2天网用户娱乐搜索行为的基本特征
本文研究的数据来自天网搜索引擎2002
原创力文档


文档评论(0)