中国少数民族语言文字政策知识库 样本及介绍.docxVIP

中国少数民族语言文字政策知识库 样本及介绍.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

中国少数民族语文政策知识库的主要功能

一、中国少数民族语文政策知识库的设计

(一)功能模块设计

中国少数民族语文政策文件知识库主要包括四方面的功能:知识管理、知识检索、知识统计分析以及其他辅助功能。功能模块结构如图2-4所示。

图2-4中国少数民族语文政策文件知识库功能结构图

1.知识管理模块

知识管理模块通过导入导出子模块、知识维护子模块、标签管理模块实现对知识的收集、处理、存储、维护等功能。该模块是知识库系统的基本功能,是实现后续知识检索、统计分析等高级服务功能的基础。

导入导出(备份恢复)子模块:前期通过各种方式采集的政策文件经过清洗、规范化,完成外部标注及内容标注等工作之后,把每个政策文件形成一个文本文档。知识导入功能完成对文本文件的入库功能以及数据库的恢复功能。导出模块负责对数据库进行备份。

知识维护子模块:此模块完成对知识的单条增加,删除和修改等维护功能,是对知识库进行基础维护的主要模块。

标签管理模块:标签包括外部属性标签和内容标签,是知识库的重要组成部分。因此专门拿出一个模块来对标签进行管理。此处的标签管理主要是指批量的标签管理,单条的标签管理可以在只是维护模块中完成。主要完成各类标签的提取和批量修改及替换。

2.知识检索模块

知识检索是中国少数民族语文政策文件知识库展示的主要方式,是快速获取知识和信息的便捷途径。知识检索分为全文检索、多条件组合检索两大类。这两类检索方式除了简单的关键字或者条件匹配之外,还支持一定程度上的推荐搜索(如语义搜索)。例如,在使用关键字在进行全文搜索时,应可以根据一定的算法和原则检索到与目标关键字语义相关性较强的结果,推荐相关的搜索关键字。查询一个政策文件,可以联想到与其相关的其他文件,例如:同地区、同民族、同类别、引用了、被引用的相关文件,并进行推荐,方便用户随时查阅相关文件,实现相关知识的推荐服务。

3.知识的统计分析模块

知识库的一个重要方面是知识的挖掘,中国少数民族语文政策文件知识库的知识挖掘是从现有政策文件数据中发现有用知识的整个过程。通过知识挖掘进一步探索知识内部的规律和联系,发现知识中隐藏的趋势和动态信息,用以深层次展示领域发展历程、预测未来发展趋势,支持该领域相关部门和机构进行决策。

统计分析法是知识发现的基本方法和重要途径。知识统计分析功能模块是本知识库的一个重要特色和进行本研究分析的重要工具。统计分析模块由3个子模块组成:领域标签统计子模块、重点类别统计子模块、时间分布统计子模块。

领域标签统计子模块:本研究中将所有的内容标签分成了16个领域,997类内容标签。从各种角度和层面统计各个领域中政策文件内容标签的分布情况,进而发现政策文件的各种特征。例如:所有政策文件(现行有效)在各领域的标签分布情况;按效力级别(国家级、非国家级、地方性规范文件)统计现行有效文件的领域分布情况;按省份统计各类标签的领域分布情况;按其他外部属性统计各类标签的领域分布情况等。

重点类别统计子模块:统计分析重要法规类别(现行有效的区域自治条例和民族语言文字条例)的省份地域分布情况,以及在各领域的标签分布情况;

时间分布统计子模块:为了探究知识库中各类政策文件中相关领域主题(是指标签层次领域中的一个领域或子领域。)随时间的演化情况。例如,某个主题中各类标签首次出现的年份,出现的频次。知识库提供了时间分布统计子模块,包括法规类别(国家级、非国家级、地方规范性文件)时间分布情况;领域标签时间分布情况;主题热度时间分布情况等。

其他统计分析子模块:研究中需要用到的其他类别统计。包括上位法的统计,条例修订前后的标签变化情况等。

3.其他辅助功能模块

辅助功能模块的设置除了便于对未来新增文件的预处理的需要;也是为了便于政策研究者方便提取需要的信息,对文本内容进行深入研究;数据库的辅助功能模块,实现了对标签知识的提取、输出、归类、可视化分析等常用功能。

生成citespace数据子模块:citespace是一个流行的科学文献可视化工具。本文使用该工具对政策文献进行了一些分析,但citespace对文献的输入有专门的格式要求。本知识库系统提供从数据库中导出让citespace软件可识别的文件格式的功能,并支持在导出政策文件数据之前按照类别条件对文件进行筛选的功能。

输出标签目录子模块:研究中多处用到了标签目录文件,本知识库系统提供了该目录的导出功能。

文件预处理子模块:文件预处理是在数据库建立初期需要大量使用的功能模块,包括生成标签路径、生成适用民族和适用地区、标题的正规化、生成引文被引频次等功能。

二、主要功能展示

本研究使用前文中选定的开发语言和后台数据库,按照知识库设计阶段的要求,对知识库进行了代码实现。知识检索和知识统计分析模块是知识库最核心的两大模块。知识统计分析模块的功能在之后的各章中

文档评论(0)

昆明移动宽带办理 + 关注
实名认证
服务提供商

昆明移动宽带咨询、办理。

1亿VIP精品文档

相关文档