基于多词表的自动标引技术研究1-数图研究笔记.PDF

基于多词表的自动标引技术研究1-数图研究笔记.PDF

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于多词表的自动标引技术研究1-数图研究笔记

第 21 卷  第 3 期 情 报 学 报 Vol. 21 , №3 2002 年 6 月 June ,2002 基于多词表的自动标引技术研究1) ———新华社新闻稿自动标引的实验 查贵庭 侯汉清 (南京农业大学信息管理系 ,南京 210095) 避开汉语分词中的技术特点 ,转向基于多词表自动标引抽词研究是当前中文信息自动主题与分类标引 摘要    可以采取的一种策略 ,也是最为可行的方法。本文以新华社新闻稿中的题名和导语为对象 ,详细介绍了基于多词 表自动标引技术中的词表构建、自动抽词、主题标引和自动分类等技术。并成功设计了新闻信息自动标引的实验 系统 ,取得了较好的效果。 关键词   新闻标引  自动标引  自动分类  词表技术  自然语言标引 Automatic Indexing Based on Multivocabularies Zha Guiting and Hou Hanqing ( Department of Library Information Scinece , Nanjing Agriculture University , Nanjing 210095) The paper proposed a technique of automatic wordextracting based on multiple vocabularties so as to avoid the Abstract    technical difficulties of wordsegmenting in Chinese. These vocabularies are as follows :stoplist ,synonymous list ,keyword list ,the saurus ,concordance of keyword string VS class number ,etc. ,their function ,construction and application are detailed. The paper in troduces and evaluates the automatic indexing system of economic news of Xinhua News Agency. news database ; automatic indexing ,automatic classifying ,wordextracting ,vocabulary construction. Keywords    动标引系统中所涉及的“分词”实际上是抽取代表主 1  词表及抽词技术 题概念的关键词。因为自动标引所需的关键词主要 为文献的题名、文摘或少量正文中的名词和名词词 汉语分词技术虽然取得了很大进展 ,但是由于 组 ,无需对文献中的所有词和词类进行“切分”和处 在分词规范、分词算法、歧义控制等方面还存在着一 理。所以在当前的自动标引系统研制中 ,能够回避 些难以解决的问题 ,所以至今汉语分词技术还没有 汉语分词的一些技术难点 ,转向抽词技术研究 ,即充 实用化 ,这在一定程度上影响了自动标引的研究进

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档