电子政务主题词表自动构建研究-中国图书馆学报.pdf

电子政务主题词表自动构建研究-中国图书馆学报.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中国图书馆学报(双月刊)2008年第3期 摇 摇 ZHONGGUO摇 TUSHUGUANXUEBAO 荫仲云云摇 侯汉清摇 杜慧平 电子政务主题词表自动构建研究* 摘摇 要摇 电子政务主题词表是电子政务信息组织和检索的重要语义工具。 传统手工编制叙词表的方法已不再 适用于网络环境。 电子政务词表的自动构建技术主要有基于N鄄gram方法的词汇收集和选择词间关系的自动识 别。 要想编制一部性能优越且容易应用的词表,应将计算机自动构建与传统方式编制结合起来,取长补短。 表 7。 参考文献10。 关键词摇 电子政务摇 主题词表摇 词表编制摇 自动构建摇 N鄄gram 分类号摇 G254.24 ABSTRACT摇 Thesauri for e鄄government are important semantic toolsfor the organization and retrieval of e鄄government information. Traditional manual thesaurus compilation methods are no longer suitable to the networked environment. Among the technologiesfor the automatic construction of e鄄government thesauri,there are the N鄄gram鄄based vocabulary鄄 collecting technology andtheautomaticrecognitionfortheselectionofwordrelationships. Tocompileagoodandeasy鄄to鄄 use thesaurus,we should use both computer鄄based automatic methods and traditional manual methods. 7 tabs. 10 refs. KEY WORDS摇 e鄄Government.摇 Thesaurus.摇 Compilation of thesaurus.摇 Automatic construction.摇 N鄄gram. CLASS NUMBER摇 G254.24 摇 摇 目前国内外所研究的自动构建词表的方法包括 1个字符,窗口中出现的n个字符即为N鄄gram。例如, [1] [2] “叙词表的自动构建冶可以生成如下字符串: “从WordNet转化冶 、“概念空间冶 、“整合既有词 表冶等。 但这些方法基本上都是识别词与词之间的 n=1:叙,词,表,的,自,动,构,建 [3] n=2:叙词,词表,表的,的自,自动,动构,构建 相关关系,即所编制的词表只能称为关联词表 。 这对于编制一部比较正规的叙词表是不够的,必须要 n=3:叙词表,词表的,表的自,的自动,自动构, 进一步识别其他词间关系。 本文将尝试用计算机来 动构建 自动识别等同、等级和相关关系,从而自动构建一部 ……………… 电子政务主题词表。 n=8:叙词表的自动构建 鉴于中文关键词一般不超过 15 个汉字,设定最 1摇 电子政务词表的自动构建技术 大抽取长度为15,利用GF/ GL权重值计算和关键词 1.1摇 基于N鄄gram方法的词汇收集和选择 筛选算法来选择关键词。 本文所建词表的词汇来源于现有词表及电子政务 GF/ GL权重法:词汇的重要性与其长度和在文 网页。 所用的词表是《综合电子政务主题词表》和《中国 献中的出现频率呈正相关,关键词在一篇文献中至少 分类主题词表》。 所用的网站包括江苏共青团网、江苏 会出现

文档评论(0)

xiaozu + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档