- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
电子政务主题词表自动构建研究-中国图书馆学报
中国图书馆学报(双月刊)2008年第3期
摇 摇
ZHONGGUO摇 TUSHUGUANXUEBAO
荫仲云云摇 侯汉清摇 杜慧平
电子政务主题词表自动构建研究*
摘摇 要摇 电子政务主题词表是电子政务信息组织和检索的重要语义工具。 传统手工编制叙词表的方法已不再
适用于网络环境。 电子政务词表的自动构建技术主要有基于N鄄gram方法的词汇收集和选择词间关系的自动识
别。 要想编制一部性能优越且容易应用的词表,应将计算机自动构建与传统方式编制结合起来,取长补短。 表
7。 参考文献10。
关键词摇 电子政务摇 主题词表摇 词表编制摇 自动构建摇 N鄄gram
分类号摇 G254.24
ABSTRACT摇 Thesauri for e鄄government are important semantic toolsfor the organization and retrieval of e鄄government
information. Traditional manual thesaurus compilation methods are no longer suitable to the networked environment.
Among the technologiesfor the automatic construction of e鄄government thesauri,there are the N鄄gram鄄based vocabulary鄄
collecting technology andtheautomaticrecognitionfortheselectionofwordrelationships. Tocompileagoodandeasy鄄to鄄
use thesaurus,we should use both computer鄄based automatic methods and traditional manual methods. 7 tabs. 10 refs.
KEY WORDS摇 e鄄Government.摇 Thesaurus.摇 Compilation of thesaurus.摇 Automatic construction.摇 N鄄gram.
CLASS NUMBER摇 G254.24
摇 摇 目前国内外所研究的自动构建词表的方法包括 1个字符,窗口中出现的n个字符即为N鄄gram。例如,
[1] [2] “叙词表的自动构建冶可以生成如下字符串:
“从WordNet转化冶 、“概念空间冶 、“整合既有词
表冶等。 但这些方法基本上都是识别词与词之间的 n=1:叙,词,表,的,自,动,构,建
[3] n=2:叙词,词表,表的,的自,自动,动构,构建
相关关系,即所编制的词表只能称为关联词表 。
这对于编制一部比较正规的叙词表是不够的,必须要 n=3:叙词表,词表的,表的自,的自动,自动构,
进一步识别其他词间关系。 本文将尝试用计算机来 动构建
自动识别等同、等级和相关关系,从而自动构建一部 ………………
电子政务主题词表。 n=8:叙词表的自动构建
鉴于中文关键词一般不超过 15 个汉字,设定最
1摇 电子政务词表的自动构建技术 大抽取长度为15,利用GF/ GL权重值计算和关键词
1.1摇 基于N鄄gram方法的词汇收集和选择 筛选算法来选择关键词。
本文所建词表的词汇来源于现有词表及电子政务 GF/ GL权重法:词汇的重要性与其长度和在文
网页。 所用的词表是《综合电子政务主题词表》和《中国 献中的出现频率呈正相关,关键词在一篇文献中至少
分类主题词表》。 所用的网站包括江苏共青团网、江苏 会出现
您可能关注的文档
- 河流附近非水平初始面潜水渗流分析-吉林大学学报.pdf
- 河海大学博士研究生课程汇总表-河海大学研究生院.doc
- 油气输送管将受益于十二五天然气大发展.pdf
- 油气输送钢管的发展动向与展望-第欧焊接网.pdf
- 油田应用新型电磁防蜡器节能效果分析冷绪增大庆油田装备制造集团.doc
- 法务会计的概念与特征探析-审计与经济研究.pdf
- 法巴是日概览法巴每日精选-hangsengbank.pdf
- 法律发现中的类比推理-厦门大学学术典藏库.pdf
- 法律推理与-上海交通大学凯原法学院法社会学研究中心.pdf
- 法律语境中弱势群体概念构建分析-中国法学.pdf
- 电脑辅助色彩味觉与嗅觉意象之调和配色研究-etop-工程科技推展平台.pdf
- 留学生申请表-aces.pdf
- 白洋淀流域水资源管理体制建设途径初探-资源与产业.pdf
- 白洋淀流域生态水文过程演变及其生态系统退化驱动-中国工程科学.pdf
- 白洋淀渗漏对周边地下水的影响-水科学进展.pdf
- 白洋淀湿地补水的生态效益评价-生态与农村环境学报.pdf
- 病害边坡治理方案选择的智能辅助决策系统-岩石力学与工程学报.pdf
- 白洋淀流域气温降水和径流变化特征及其相互-中国生态农业学报.pdf
- 白洋淀底栖动物群落特征与重金属潜在生态风险的-农业环境科学学报.pdf
- 白洋淀湿地面临的生态问题及生态恢复措施-水土保持通报.pdf
原创力文档


文档评论(0)