- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
转载关于声像电子档案归档本体在城建档案信息管理系统中的应用
本体在城建档案信息管理系统中的应用
孙庆辉 霍建飞
[内容提要]本体,作为一种能在语义和知识层次上描述信息系统的概念模型的建模工具,已在许多领域得到了广泛的应用。本文应用基于本体的方法来建立城建档案信息管理系统的分析设计工作,借鉴该领域内现有的本体研究,提炼出了档案信息系统模型,阐述了本体在城建档案信息系统中的应用情况实例。
[关键词] 本体 系统模型 城建档案 信息系统
一、引言
本体,作为一种能在语义和知识层次上描述信息系统的概念模型的建模工具,迅速成为信息系统与人工智能领域的一个研究热点,并在许多领域得到了广泛的应用,如知识工程,软件复用,信息系统间异构信息处理,自然语言理解等。特别是在信息检索领域,本体提供了一种对信息和知识进行规范化描述和建模方法,在构建智能化的检索系统、构建语义等方面具有重要的意义[1]。
二、本体的基本知识
2.1本体的定义
本体是由Neches与Fikes在1991年提出的[2],是领域术语及其关系的外在形式化表示,术语及其联系是现实世界的提取。本体作为一种服务方式作用于领域知识的抽取、描述、传递与共享[3]。本体能使智能代理更加清晰地理解相关的元素、关系以及概念,使知识表示更加合理与方便,帮助人们作出更恰当的选择。
2.2基于本体的信息检索的基本原理
本体是把现实世界中的某个应用领域抽象成一组概念及概念间的关系。在传统信息检索技术中融入本体,既能够发挥概念信息检索的优势,又可以克服概念信息检索的局限性,即它不能对概念关系进行处理。由于本体能够对概念关系进行处理,并通过概念之间的关系来表达概念语义,所以检索的查全率和查准率会得到提高。基于本体的个性化信息检索是对需求集合和信息集合进行了匹配与选择,并在其中加入了本体的元素。
三、本体在城建档案信息管理系统的中的应用
利用本体理论指导并开发城建档案信息管理系统,目的是使城建档案管理的过程信息化、现代化,以适应当前工作的需要。城建档案信息管理系统是以城建档案为核心,以馆藏档案资源为基础,以计算机技术为载体,用本体理论来建立档案信息的检索模型,将现代的计算机技术与传统档案查询服务方式相融合。它不仅做到了统一、完整,而且还具有容量大、速度快等特点,还能够做到较为准确的查询,充分开发城建档案信息资源、提高了工作效率和管理水平。
3.1 本体知识在城建档案信息检索中的应用
由于城建档案系统数据量大且复杂繁琐,为减少数据检索时间,提高数据的匹配效率,故引入本体知识来改善检索的效率。信息检索过程涉及 3个方面: 用户任务 (用户需求 )、文献的逻辑表示 (文档替代物 )、相关性判断。为了提高系统的响应速度,信息检索系统一般不直接进行用户需求和文档的相关性分析,而是使用表现形式既简单又相似的需求替代物和文档替代物进行相关性匹配 。
文档替代物,如关键词向量,可以通过人工标引或者自动标引获得,生成之后一般不再更新;需求替代物,如查询表达式,一般由用户或者检索系统辅助构造而成。文档替代物是档案的元数据,文档类的替代物是文档类的元数据。从检索效率的角度来看 , 标引能显著提高全文数据库的查全率和查准率,并能缩短检索时间。检索结果可以是题名、知识、概念含义水平上的信息或全文等多种形式。城建档案文本标引工作至少应该包含主题标引和实体关系标引两个方面 , 因为文本内部既包含主题信息,又包含实体关系信息,这是两类不同类型的信息,文本信息检索系统应该提供这两类信息的检索入口。
到目前为止,主题标引技术已经比较成熟 , 被广泛用于信息检索系统之中,实体关系标引技术还需进一步完善。
城建档案信息检索引入本体技术的一个重要目的是变关键词 (或者主题词 ) 匹配为基于语义的匹配,使系统在查全率和查准率上有更好的保证。然而,现有的基于本体的信息检索系统在标引过程中对本体的利用过于简单,只是借助于领域本体,判断文档所属的领域,对文档按领域进行分类。领域本体能否在标引过程中发挥更多的作用,有没有必要对标引功能进行相应的改造,例如,使用本体描述档案文档,用本体作为档案文档的替代物,这些都有待继续进行研究。
在标引过程中,本体技术可以发挥更多的作用。但是,应该将领域本体分为两类:一类是反映特定领域内概念之间关系的本体,简称概念关系本体;一类是反映特定领域内实体之间关系的本体,简称实体关系本体。这两类领域本体的作用不同。
实体关系标引属于信息抽取技术,可视为信息检索技术的一个深化。在标引过程中,实体关系本体可以充当信息抽取框架。实体关系标引的过程可以按以下几个步骤进行:
1.标引系统对城建档案进行主题标引,识别文本中所包含的主题,并根据文本主题将文本按照领域进行归类。
2. 利用文本的领域归属信息从文本中识别出命名实体。
3. 利用信息抽取模板将特定的描述信息与实体联系起来。
4
文档评论(0)