关于网络标注的主要方法概述.pdfVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关于网络标注的主要方法概述 作者:张瑜 孟宪学 苏晓路 李景   [ 论 关键词]大众标注 语义标注 本体   [论文摘要]认为标注对于检索至关重要, 网络 标注在网络资源海量的今天更是如此。 介绍网络中标注的方法:元数据标注、聚类标注和分类标注,并对大众标注和语义标注进 行详细介绍。最后对这些标法方法进行比较分析及评价。   在网络信息爆炸的今天,让用户检索到需要的信息至关重要,因而网络环境中标注显 得尤为重要。目前对于标注的定义大家没有统一的说法,但是本质上都是一致的。概括来 说即通过对 文献 进行主题分析,识别其重要特征,赋予确切的检索标识(类号、标题词、 叙词、关键词、人名、地名等) ,用以反映该文献内容的过程。标注的质量,对文献的检 索效果有直接的决定性影响。标注的类型从不同的角度划分有无数据标注,聚类标注,传 统网络的分类,Web2.0 中的大众标注,语义标注等。   1 几种主要网络标注方法   1.1 一些传统网络标注方法   1.1.1 元数据标注传统上元数据的创建有两种方法专业人员创建和作者创建。第一 种是指在图书馆和其他组织中最初创建的元数据,大多为编目记录或由精心挑选的复杂、 详细的规则集和词汇;第二种方法是指作者创建的元数据,表现为作者标注的文档可由 SGML、万维网,都柏林核心集表现出束。   1.1.2 聚类分析聚类分析是将事物按其某些属性的相似程度归至各个群体。传统的 文献聚类方法主要有单遍聚类法、逆中心聚类法,密度测试法、图论法等。这些方法大都 通过 计算 文献的相似度,生成待进行聚类分析的文献集的关系矩阵,然后通过分析此矩 阵获得文献集的分类。Web 文档聚类技术可以缩减搜索引擎的搜索空间,加快检索速度, 提高查询精度,因而受到人们的广泛关注㈣。   1.1.3 传统网络分类法传统网络分类法表现为两种形式:一种是对现有文献分类法 实行网络化。目前一些大型万维网站点或搜索引擎均采用现有的文献分类法组织 Internet 信息资源。如加拿大国家图书馆利用《杜威十进分类法》编制综合性网络目录 Canadtan Information by Subject ,英国BUBLSub ,ject Tree 利用《国际十进分类法》编制了覆盖国 内综合性网上资源的目录等;另一种是采用网络自编分类法的形式。网络自编分类法是 20 世纪 90 年代新兴的专门网络资源分类工具,以 Yahoo、搜狐、美国的 Excite 等为代表 的分类系统重视以事物对象为中心设置类目,以超文本的方式反映相关类目,现已 发展 成为许多门户网站普遍使用的一种模式。   随着 Internet 的出现,海量的网络资源使得利用受控语言进行标注的可操作性变得越 来越差,而利用 自然 语言进行全文检索以其方便、成本低、效率高等优点获得了全面发 展,并很快成为因特网资源检索的主流技术。在专业人员创建元数据、作者创建元数据表 现出种种问题情况下又出现了第三种方法;用户创建的元数据,其应用体现在 Web2.0 中 。   1.2 大众标注   Web2.0 的出现为用户带来了真正的个性化、去中心化和信息自主权,它是互联网的 一次理念和思想体系的升级换代,由原来的自上而下的由少数资源控制者集中控制主导的 互联网体系转变为自下而上的由广大用户集体智慧和力量主导的互联网体系。在 Web2.0 中人们使用的是基于非受控词即自然语言的标注。在这里用户不仅自己应用创建的元数据 ,也在社区中分享,这是一种自底向上的标注方法。   社会性标签能够从群体用户分类中涌现出对应使用最多的分类,这种通过协同用户单 个行为“涌现”出使用最多的分类法,是在大众用户持续使用“tag”的过程中被集体创造出来 的,所以 Thomas Vander Wal 将其命名为 Floksonomy(Floksonomy ,由“Folks”和 “Taxonomy”合成) ,即集合众人之力产生的社会分类法。Folksonomy 可被译为“分众分类” 、“大众分类”、“自由分类、“社会分类”、“通俗分类” ,我们认为“大众标注”更能反映出 “folksonomy”是一种大众性的、自由式的标注。大众标注是一种使用用户自由选择的关键 词对网站进行协作分类的方式,而这些关键词一般称为标签(tag)。该方法是大众自发的用 标签对网络信息标识和共享的过程,它没有权威、成形的分类文本,而是依据大众日常口 头词汇对信息标记,其结果表现为系统的标签云,标签云易于直观地组织信息和共享信息 ,同时亦因缺乏等级结构、不精确、滥用、同义词等为研究者所质疑。但网民却接受了此 种“有

文档评论(0)

max + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档