中文文献自动标引过程研究.pdfVIP

  1. 1、本文档共2页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文文献自动标引过程研究.pdf

圈 ·文献采编 · 江西图书馆学刊(J呦) 第33卷第4期(Vd.33No.4) 中文文献 自动标引过程研究 苏君华 摘 要 自动标 引是现代信息检索研究工作的重点之一 ,论述 了 自动标 引的整个过程 中所应该注意的问题 ,并描绘 了 自动标 引的流程 图。 关键词 自动标 引 词典 标 引词 抽词标 引 Study ofProcessofAutomatic Inde~ng f0r C~nese Doc~ ent Su Junhuo Abstrad Autommic indexing is one ofthe emphases of modem inf0HIlation re~ evM study . 111is paper discusses the whole p~ essofautomatic indexing and describes the flow chartofthe automatic indexing. KeywOrds Automatic Indexing, Diction~ , IndexingTeHIl, Derived Indexing 自动标引是文献信息 自动处理的基础环节 ,在信息系统中, 概念词 ;S代表属项 ,表示主题词 的上位概念词 ;C代表参项 ,表示 它对于信息处理、信息管理、信息检索起着重要的作用,我国科研 主题词的语义相关词 ;Z代表族项 ,表示主题词所属族的组首词。 人员迄今 已经提出各种各样的 自动标引方案。本文以已有的研究 Pf、Ps、Pc、Pz分别指 向F、S、C、Z项所指主题词在主题 /关键词词 成果为基础提 出一些看法 。 典 中的位置。 1 数据录入 以往文献信息 自动标 引主要 以标题和文摘作为标 引源。 1961年 Resnick做了一个研究相关性的试验 ,把 400条题录和文 摘作为对提 问的响应送给用户 ,让他们判断相关性 ,然后把其它 胛 fI鲫 slC佻 l Pz 判为相关 的文献 的全文送给他们 ,让其重新判断一下相关性 。结 果,根据全文判为相关的文献只占根据题录或文摘所判定文献 的 60% 。而且 ,就文摘而言,因为有作者文摘与非作者文摘 、手编文 摘与机编文摘之别 ,所 以质量参差不齐 ,不一定能准确反映文献 除主题词外 ,在文章中还会有一些无意义的符号和汉字 ,为 的主题 。故笔者以为,为保证标引的质量 ,最好 以全文作为标引 了提高抽词 的效率 ,我们还需要设计一个特殊符号表和非用字 源。另外 ,在一篇文献中,同一关键词会 出现多次 ,且在不同的位 表。在抽词过程中提取字符之后先与之进行比较 ,如果匹配成功 , 置 ,而在不同的位置对表达文献主题的作用不同。例如 ,标题 中的 接着取下一个字符 ,不用去浏览所有的主题词。尚须注意的是非 关键词就 比正文 中的关键词重要得多 ,故在全文标 引中还必须考 用字基本可以分为两大类:一类是通用性较强的非用字,如 “这”、 虑关键词的位置因素。因此在数据录入时 ,对文献必须以统一的 “但”、“而”等。这类字一般受被切分文献所涉及的专业影响较小 。 格式录入 ,对文献的标题 、文摘 、首尾章节、章节的首尾段 、段落的 相对稳定。另一类则是通用性不强的非用字 ,这部分字在一些专 首尾句分别给以明确的标识,以利于 自动标引时主题词 的权重计 业里作为非用字,而在另外一些专业 中是不作为非用字的。 算。建立数据库时可以建立两个彼此关联、内容互补 的数据库 :其

您可能关注的文档

文档评论(0)

docinppt + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档