基于folksonomy 标签用户分类研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于folksonomy 标签用户分类研究

基于folksonomy 标签用户分类研究   [摘要]重点研究基于Folksonomy的数字资源系统的用户的共性,提出利用用户标签对用户分类的方法,并通过对Flikcr(闪烁照片网)的实证研究,证明通过标签对用户分类的可行性和实用性,为兴趣推送和进一步研究奠定基础。   [关键词]Folksonomy 标签 用户分类   [分类号]G202 TP391      1 前言      以人为中心的Web2.0时代的到来,使互联网用户由被动转为主动,成为信息发布者和接受者的一体。以del.ieio.us、Flickr为代表的基于folksonomy的数字资源系统应运而生,形成了一种新的网络信息资源的组织检索方式。通过用户标签对用户的偏好进行研究分类以及兴趣推送,能够为用户提供多渠道、全方位的信息,更有利于folksonomy的网站的发展。   然而,目前国内对folksonomy的研究着重于其国内外发展现状、概念、优劣势、发展前景以及与现有信息组织模式的结合应用分析等方面,对folksonomy的标签以及用户偏好鲜有研究。在folksonomy用户偏好研究方面,只有王翠英在《基于Folksonomy的用户偏好研究进展》一文中将用户分成单兴趣用户和多兴趣用户,分别构建适用的兴趣挖掘机制及对用户偏好的应用,但主要是从用户个体进行分析,且没有具体操作过程。   国外对folksonomy的研究无论理论还是应用上都明显领先于国内。在起源方面,国外学者倾向于从社会化站点的角度研究folksonomy,并以存在的系统为研究对象;在研究内容上,Adam Mathes指出了folksonomy系统的存在对个人和社区的重大意义;Christopher H.Brooks和Nancy Montanezt对博客搜索引擎Technorati的标签做了定量分析,发现了标签对用户分类的作用;Marieke Guy也对标签做了定量分析并提供了标签的可视化工具,指出了标签的长尾分布。   综上所述,folksonomy是目前越来越受关注的一个领域,理论方面的研究比较多,但也不是很完善,定量研究方面的内容比较少。本文主要从定量的角度研究如何利用folksonomy标签对兴趣相似的用户进行分类,提出了通过定量分析标签来研究用户共性的思想,给出了基于标签进行用户分类的具体方法和操作流程,并以Fliekr为例,对本文提出的用户分类方法进行了实证研究。     ??2 用户分类的思路      Folksonomy是一种以标签为目的的“自下而上的社会化分类”信息组织方法。标签是folksonomy最核心的内容,它是一种描述性的非结构化元数据,由用户根据自己的理解和喜好自由添加,不受任何词表的约束,标签从某些方面代表了用户的兴趣所在,所以依据标签对用户进行分类,然后对用户进行兴趣推荐是十分可行的。   用户分类的目的是把兴趣相似的用户分为一类,方便对用户进行兴趣推荐。为了不增加用户的负担,研究从系统的角度出发收集用户的标签。标签符合负责分布,即不同用户使用了很多相同的标签,表明这些用户在兴趣上有一定的相似性。相同标签的个数越多,表明这两个用户的兴趣越相近。   因此,根据标签进行用户分类的基本思路是:首先确定用户之间是否使用了相同的标签,再确定相同标签的数量及各个标签的使用次数。在实证研究中,由于收集标签的使用次数比较困难,故在抽取用户标签时直接抽取使用次数最多的标签(每个用户排名前10的标签)。      3 FIickr的用户分类过程      3.1 Folksonomy数字资源系统的选取   实证研究中数字资源系统的选取必须满足如下要求:①该系统能够提取每个用户的标签;②该系统必须支持群组,以便分类结果的验证;③该系统的访问量要足够大。根据以上要求对基于folksonomy的网站进行对比分析,排除不支持群组的和无法提取具体用户标签的,只有Fliekr满足要求。它是目前比较流行的一个folksonomy数字资源系统,2009年上榜美国《时代》周刊评选的50个最佳网站,2008年11月份达到6400万的独立用户,而且它可以提取每个用户的标签数据,也支持群组,可以帮助检验分组效果,所以,笔者最后选择Flickr作为实证研究对象。      3.2 Flickr中用户和标签的抽取   考虑到最后要借助群组对分类结果进行检验,所以抽取用户之前,先抽取了一些群组,然后从每个群组中抽取部分用户,这样有利于对分类结果的验证。   首先是群组抽取,主要采取两种方法:①从热门标签中集中选择最热门的标签作为检索词去搜索社群,然后从搜索结果中随机选择;②从网站的推荐群组中选择。这两个方法抽取群组的时候,都要满足一个先决条件:群组的成员要多

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档