基于语料和基于标引经验自动分类模式比较.pdfVIP

基于语料和基于标引经验自动分类模式比较.pdf

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
( ) ( ) 第 5 卷  第 4 期 南京农业大学学报 社会科学版 2005. 5 4 VOL . 5 , NO. 4 2005 年 12 月 Journal of Nanjing Agricultural University ( Social Sciences Edition) Dec . , 2005 基于语料和基于标引经验的自动分类模式比较 1 2 1 薛春香 ,夏祖奇 ,侯汉清 ( 1 南京农业大学 信息科技学院 ,江苏 南京 210095 ;2 趋势科技中国研发中心 ,江苏 南京 210008) 摘  要 :从原理 、系统设计 、知识库构建 、分类算法 、性能等方面对 自动分类的两种模式 ———基于训练语料和基于 人工标引经验 ———进行介绍和比较 ,这两种分类模式都具有一定的可行性 。基于训练语料的自动分类模式完全 依靠机器学习从训练集中发现类 目的特征 ,数学论证充分 ,易于维护 , 比较适合于面向行业和主题的粗分类 ,但是 过分强调了机器学习的效能 ,忽略了人工智力劳动成果的利用 ,训练过程和分类过程运算量 ,算法复杂 ;而基于标 引经验的自动分类模式利用简单的统计学方法从书 目数据库中挖掘人工标引经验 ,适用于面向体系分类法的详 细分类 ,分类算法简单 ,运算量小 ,但过分依赖经验 ,缺乏有说服力的数学证明。知识库的完备性和合理性是影响 两者分类效能的主要因素 ,是两者面临的共同问题 。 关键词 : 自动分类 ; 自动标引; 语料库 ; 知识库 ;《中国图书馆分类法》 ( ) 中图分类号 : G254 . 36  文献标识码 :A   文章编号 :1671 —7465 2005 04 —0085 —08    自动分类是信息自动化处理中较为活跃的一 长期应用于传统文献组织的文献分类法 ,经过 个领域 。早在 50 、60 年代 , IBM 的Luhn 等人就展 多年实践已经建立起与其他分类法 、词表之间的兼 开了文献信息的自动分类研究 。近年 ,OCLC 和欧 容互换对应关系 ,发展成为一种可以有效组织信息 ( ) [3 ] 盟又在信息资源的自动分类和主题识别领域开展 的语义工具 , 即知识组织系统 KOS 。 利用这一 了多个研究项 目,如 OCLC 的 Scorpion Proj ect 、欧盟 知识组织系统来实现信息的自动标引和自动分类 , 的DESIRE 等 , 利用传统的文献分类法 , 如 DDC 、 已经成为 目前信息加工自动化的一个研究热点 。 ( ) UDC 、LCC ,对网络信息资源进行分类组织和主题识 根据知识库 或分类器 构建方法以及分类算 [ 1] 别 。 国内的自动分类研究工作始于 80 年代初 ,经 法的不同 , 目前常用的该类型自动归类模式可分为 过 20 年的发展 , 已经有一些比较有代表性的辅助 基于训练语料和基于人工标引经验两种 。 归类和自动归类系统 ,如

您可能关注的文档

文档评论(0)

天马行空 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档