基于活跃度指数的标签相关性判断研究.PDF

基于活跃度指数的标签相关性判断研究.PDF

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于活跃度指数的标签相关性判断研究.PDF

第59卷 第9期 2015年5月 基于活跃度指数的标签相关性判断研究 ■ 林鑫 周知 武汉大学信息管理学院 武汉430072 摘要:[目的/意义]借鉴活跃度指数的设计思想,提出一种新的标签相关性判断策略,以改善标签相关性 判断的效果和策略的通用性。[方法/过程]结合标签相关性判断的特点对活跃度指数的计算方法进行改造,进 而提出一种基于多次活跃度指数迭代的标签相关性判断策略,并以社会化标注社区“豆瓣电影”的675351位 用户的标签数据为例进行实验,以验证策略的效果。[结果/结论]实验结果显示,该策略的召回率为79.6%, 准确率为93.3%,均较为理想,明显优于常用的TopN策略。同时,该策略的通用性较好,适用于视频、音频、文 ? 本等各类型媒体。因此,该策略能够较好地解决标签的相关性判断问题。 关键词:活跃度指数 社会化标签 标签相关性 分类号:G254   DOI:10.13266/j.issn.0252-3116.2015.09.014   随着Web2.0的发展,标签已经成为网络信息组 词频排序和测量方法排序得到推荐标签[7];对于图片, 织的重要手段。然而,由于标签用户的专业素养参差 较常用的是基于图片上下文文本以及视觉特征的判断 不齐、标注动机各异、标注较为随意以及存在一定的恶 方法[8-9];对于音乐,则基于歌词、曲风、旋律、节奏等 意标注等原因,标签的质量存在较大问题,很多标签与 特征进行相关性判断,如李静等利用歌词、唱速等判断 [1] [10] 资源的相关性都比较弱甚至毫无关系 。为判断标签 歌曲情感标签的相关性 。 的相关性,学者们提出了多种解决方案,典型思路包括   这些研究虽然在一定程度上改善了标签相关性问 两种: 基于标签绝对频次的相关性判断策略:对于一 题,但也存在明显问题: 绝对频次高低并不绝对与标 ① ① 个资源来说,某个标签的绝对频次越高,其与该资源的 签的相关性成正相关,LiuDong等人对 Flickr系统的 相关性就越好。这一思路在研究和实践中都得到了广 调研表明,30%图片的最相关标签未出现在频次最高 泛应用,如常用的基于资源近邻投票策略的相关性判 的10个标签中,出现在频次最高的3个标签中的比例 断策略[2-6],即对一个资源来说,某一标签在其最近的 不超过 [11] 30% 。 基于内容的相关性判断策略将标 ② K个“邻居”中出现频次越高,其相关性越好;国内知名 签相关性判断转变成了自动标引问题,这一方面受限 的标签系统豆瓣在进行标签推荐时就选择了频次最高 于自动标引策略的召回率和准确率的高低,另一方面 的10个标签,且其顺序也是按频次排列。 基于内容 往往无法保证策略的通用性,需要针对文本、音频、视 ② 的标签相关性判断策略,即标签与资源内容的相关性 频、图片等不同媒体进行针对性的策略设计。 越大,其与该资源的相关性就越大。对于不同的媒体   为解决这些问题,本文提出了一种基于活跃度指 形式,又演化出了不同的具体策略:对于文本来说,多 数(activityindex)的标签相关性判断策略,该策略在判 数研究采用文本相似度的计算方法进行相关性判断, 断标签与资源的相关性时,不但考虑该标签在该资源 如B.Oliveira等构建

文档评论(0)

sunyangbill + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档