- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于社会标注的Web资源语义聚类研究.pdf
高技术通讯 2012 年第22 卷第1 期:48 -54
doi: 10. 3772/j. issn. 1002-0470.2012.01.008
基于社会标注的 Web 资源语义聚类研究①
杨巍②*聊时 马慧芳* ** 史忠植舶
(非中国科学院计算技术研究所智能信息处理重点实验室 北京 l ∞190)
(时中国科学院研究生院 北京 l ∞049)
(阳中国计量科学研究院 北京 lω130)
摘要 在深入分析社会标注系统中用户、标签及被标注 Web 资源之间的关联关系的基
础上,提出了基于用户标签的 Web 资源语义描述获取算法,并基于所获取的 Web 资源语
义描述及其与用户之间的关联关系,利用一种迭代的聚类算法对社会标注系统中的 Web
资源进行基于语义的聚类,该聚类算法通过迭代不断加强被聚类资源间的一致性信息,
从而能够克服传统聚类算法所面临的数据稀疏以及性能问题。研究表明,对 Web 资源所
处环境的各种关联关系的深入分析,能够帮助用户更好地理解和操作相关 Web 资源,尤
其是对于本身特征不充分或难以获取的 Web 资源来说,关联关系的分析研究具有十分重
要的意义。
关键词 社会标注,语义抽取,语义聚类算法,广义关联
一种使得用户能观察系统的标注演化过程和进行交
互的机制;文献[13 J 把图片的用户标签和视觉特征
0 引言
相结合,让用户非常直观地浏览图片。这些研究极
社会标注服务系统是指目前广泛应用的允许用 大改善了社会标注系统的用户浏览和查找的体验,
但是这些研究主要还是关注的社会标注本身的结构
户对各种 Web 资源(如网页、图片、视频等)进行自
化展示,被标注的 Web 资源仍然是以平面无结构的
由标注,从而方便用户管理并与他人共享这些 Web
资源的各种 Web 服务系统。当前用户从社会标注 方式呈现,当搜索结果中包含的 Web 资源数量庞大
且包含多个主题时所遇到的困境仍然有待解决。
服务系统中获取 Web 资源主要通过基于关键词搜
社会标注系统中包含网页、图片和视频等多种
索和标签云视图两种方式。社会标注作为一种被实
Web 资源,目前对这些 Web 资源的分类聚类大都基
践证明的有效的 Web 资源组织方式,其用户群体迅
于其自身的特性,但通常 Web 资源本身特征的表达
速扩大,被标注的 Web 资源对象以惊人的速度增
能力有限,无法挖掘出蕴含在 Web 中的有用的知
长。为帮助用户高效便捷地浏览日渐庞大的 Web
识,尤其是对图像和视频等其底层特征和其语义理
资源,近年来研究人员进行了卓有成效的研究。文
献[ 1 ,2 J 探索了社会标注系统作为一个复杂系统的 解之间存在巨大鸿沟的 Web 资源。本文尝试通过
对社会标注系统涉及到的多种对象实体集合之间的
基本分布特性;文献[3-7 J 利用社会标注提供的语义
信息改善了搜索结果,并提供了个性化的搜索方法;
文档评论(0)