基于中图法的自动分类研究现状与展望.docVIP

下载本文档

7
0
约1.28万字
约 20页
2017-09-19 发布于安徽
举报
版权申诉

基于中图法的自动分类研究现状与展望.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于《中图法》的自动分类研究现状与展望黄莉/李湘东 2013-1-25 16:18:47　　来源：《图书情报知识》(武汉)2012年4期　　【英文标题】Status and Prospects on the Automatic Categorization Based on the Chinese Library Classification　　【作者简介】黄莉，女，1964年生，武汉大学图书馆馆员；李湘东，男，1963年生，博士，武汉大学信息管理学院副教授，武汉大学信息资源研究中心（武汉430072）。　　【内容提要】将人工智能研究领域中的文本自动分类技术应用于信息资源管理领域是当前的研究重点之一，而目前信息资源管理领域具有体系结构严格、类目数量巨大、类目层次众多等特点。本文充分考虑这些特点，针对《中国图书馆图书分类法》分类体系下文本自动分类研究的现状，从研究目的、类目体系、资源类型等方面，参考国外相关研究的成果和方法予以分析和评价；结合国外相关研究的最新成果，提出我国在《中国图书馆图书分类法》分类体系下应用文本自动分类技术时应注意的问题及今后的研究方向。　　It is a research focus to apply the Text Categorization (TC) Technology, originally researched in the Artificial Intelligence (AI) field, to the information resource management field. The field of information resource management has the characteristics of the strict structure, a huge number of categories and many category levels. This paper summarizes the research status of TC research over the Chinese Library Classification (CLC) scheme in recent years from the perspectives of the research objectives, category scheme, resource types etc., then provides analysis and evaluation of the related foreign achievements and methods, and finally presents the problems which should be paid attention to and future research directions when implementing TC over CLC. 　　【关键词】中图法/自动分类/类目体系/文本类型/语料库CLC/Automatic categorization/Category system/Document type/Corpus　　1 引言　　文本自动分类是指在给定的分类体系下，根据文本的内容将其自动确定为相应预定义类别的过程[1]，是人工智能研究领域中通过知识工程[2]、机器学习[3]等方法对文本进行自动分类的一种技术。在人工智能领域，文本自动分类研究的重点在于分类算法，通过不断改进现有算法或者开拓新的分类算法，努力提高分类准确性以及分类速度。为验证算法的有效性，通常要使用一定的类目构成、准备相应的文本等分类材料，并在由此所组成的试验环境中进行分类试验。但是，在试验环境中表现优秀的分类算法一旦应用到真实世界，往往差强人意，缺乏对实践中实际使用的分类材料的针对性。而在人工智能领域的文本自动分类研究中，由于类目构成、文本等分类材料不是其研究对象，针对应用范围的分类材料的研究主要体现在电子邮件中垃圾邮件过滤等分类应用之中，这类应用的特点是类目体系简单、文本数量相对较少，如文献[4]。　　《中国图书馆图书分类法》（以下简称《中图法》）分类体系下文本自动分类是指分类材料中，类目结构采用《中图法》，文本主要是需要图书馆人工编目的图书以及数字图书馆环境下电子期刊论文、网页等数字化信息资源。　　在图书馆等信息资源管理的核心机构，类目构成是对信息进行组织的基础，统称为分类法或分类体系。不仅每一个图书馆都会按照特定的分类体系，如《中图法》，对图书、期刊等文献资源进行分类组织，即使是以关键词检索为核心技术和服务的Google搜索引擎，也有按照分类目录对网页进行组织的检索页面（见http://