用户标注词语网络与语义描述.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
用户标注词语网络与语义描述

用户标注的词语网络与语义描述   [摘要]用户标注具有简洁、交流与共享、自由表达、推荐与检索等特点,但是它的平面结构使其很难适应语义网的需要,因而有必要进行语义建构,建立用户标注模型和语义联系,以便使用元数据与本体语言对用户标注进行语义描述,使之成为标签本体,以适应新一代因特网的发展。   [关键词]用户标注 词语网络 用户标注模型 标签语义描述   [分类号]G254      1 用户标注的特点与语义处理的意义      1.1 用户标注的特点   用户标注是因特网用户对自己的资源或收藏的他人资源添加标签的活动。标签是用户选取的、代表被标注资源的符号,它可以是文字(大多数情况下是文字),也可以是其他符号的,这要看个别用户的习惯和表达需要。用户标注是迄今为止最为自由的资源标引活动。因为以前的标引是或多或少“受控”的,一般都需要一个词表或字典,自动标引在很多情况下也需要一个机内词典来控制标引。用户标注则是完全自由、自我的,不需要任何事先制定的词表制约。   用户标注本身的技术含量并不高,它是与关键词技术类似的一种词汇标引方法。那么它为什么在web2.0中成为主流的组织和检索工具,并广泛渗透到传统网站,成为一个重要的查询窗口呢?答案很简单,因为它简易,是用户的交流工具。更重要的背景是:因特网进入了“从用户到机器”(user to machine)的时代,即以用户为中心,由用户创建资源的第二代因特网时代,用户创建资源并标注自己的资源是很自然的。   用户标注形成代表每件资源(文件、视频、照片、音频等)的标签,符合一定阈值的标签聚合到一个按字顺排序、按标注频率显示字体大小的查询窗口――标签云(tags clouds)中。代表用户标注结果的标签云是一个简洁的文件组织和检索工具,它代表了用户标注的一般特征:   ?简单方便,不受控制,普通用户不用学习就可以掌握标注方法,标注效率高,是受用户普遍欢迎的标注方法,在web2.0中得到广泛利用。   ?立足于交流和共享,用户使用的标签是一个话题推荐工具,每个标签把相同话题(内容)的资源集中在一起,很容易形成具有共同兴趣和关注点???用户交流群体或知识交流圈。   ?着眼于自由表达,用户标注是用户表达交流意向和内容的符号,用户群围绕标签(标注符号)表达每个人的意见和观点。所以一个或一组标签不但是标记资源的符号,更是表达观念的表意符号。   ?推荐与检索功能,用户标注形成的标签云用字体大小显示每个标签的使用率,大字体标签表达它的价值、流行性,因而具有强烈的推荐作用;标签云的平面查询窗口非常适应浏览器屏幕的平面特征,可以检索到全部或大部分标签;每个标签都是一个查询窗口,点击即可调出相关资源的页面。   1.2 用户标注语义处理的意义   为什么要对用户标注进行语义处理?因为用户标注存在天然缺陷:用户标注使用的标签可以方便汇集使用相同标签的用户群以及汇集他们创建的资源。但是由于它没有经过语义处理,所以不能创建标签间的联系。这意味着,用户标签只是一些没有语义联系的孤立符号,无法建立具有语义结构的资源体系,更不能在语义网(semantic web)环境中实现智能化的检索。就是说作为新一代因特网代表性技术的语义网,将无法处理大量的用户标注资源。作为孤立的标签符号,用户标注只能一个标签下实现有限的聚类;这样各个用户群和资源集合也将是孤立的,无法在语义上形成更广泛的意义联系。   用户标注的语义处理将克服这些关键性的缺陷,它的主要意义和应用是:①通过标签间的语义联系建立相关用户群和资源的关系网络;②通过标签间的语义处理(相同、相关、等级关系等)建立标签本体,作为网络本体语言(OWL)的描述对象,为建立标签的语义网奠定基础;③通过标签间的语义处理,建立类似等级分类资源体系;等等。      2 用户标注形成的词汇网络与语义处理      2.1 用户标注的词汇网络   由于自由标注不受控制,用户标签可能出现极为复杂的聚类情况,形成资源或知识之间的交叉网络。这里仅举一个简单的例子来说明这种情况。如果用户要标注张爱玲的《小团圆》,在自由标注情况可能会出现名目繁多的标注方式。如小团圆、张爱玲、小说、自传体小说、文学传记、传记小说、长篇小说、家史小说等等。这些词语可以组成一个由各个结点组成的语义网络,如图1所示:   图la是张爱玲自传体小说《小团圆》的用户标注情况,当然并没有完全列举出所有可能的情况,但是这个图已经清楚地说明用户标注的复杂情形。要说明的是,这些标注还没有列出最复杂的情况,比如“张爱玲作品”、“张爱玲回忆录”等错误标注。b图是根据a图的标注词列出的词汇网络图,并给出了一般性的语义表示(简单的等级关系表示)。b图列出了两个语义系列图,分别是“文学”和“历史”,

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档