- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文期刊全文数据库系统设计
论文导读:引言在追求快速、方便的网络时代,只提供题录、文摘数据库已不能满足读者的要求,全文数据库的建设是今后发展的方向。中文与西方国家的语言不同,由大量独立汉字组成,因此在建设中文全文数据库时要注意数据库系统、编码与开发工具的选择。2数据库系统、开发工具及中文编码的选择2.1数据库系统的选择理论上现在成熟的大型关系数据库软件均可作为中文期刊全文数据库系统,但从市场占有程度及成本和易用性考虑,用来存储中文期刊全文的数据库系统建议从以下几种平台中进行选择。
关键词:中文期刊,全文数据库,数据库系统
引言在追求快速、方便的网络时代,只提供题录、文摘数据库已不能满足读者的要求,全文数据库的建设是今后发展的方向。许多文献数据库都是通过网络发布和提供检索的,面对的是没有检索经验的用户和巨大的文献处理的难题,如何建立一个有价值的、用户满意的、实用的全文数据库就成为广大图书情报人员深入研究的课题。
全文数据库除提供一般题录数据库的题名、分类等检索途径外,还提供全文检索。全文检索是利用了文献中的自然语言作为一个检索入口,这种自然语言的检索方式比较符合用户的易于利用的需求。
中文与西方国家的语言不同,由大量独立汉字组成,因此在建设中文全文数据库时要注意数据库系统、编码与开发工具的选择。
1 全文数据库系统软件基本模块的设计构想由于全文数据库是非结构化的数据,因此全文数据库的结构(记录、字段、子字段等)的划分及长度的确定,往往随文献本身的内容特点而彼此有很大的差异。与之相对应,全文数据库系统的软件及其功能模块也会有很大的不同。作为功能完备的全文数据库系统,应该具有以下的结构特点及全部或大部分功能模块。
1.1 数据库结构定义模块这一模块主要是确定库的记录、字段(包括重复字段或子字段),确定相应记录或字段的索引方式。字段设计之目的在于:增加正文之外的信息项,增加检索的切入点;提高检索的查准性,借以进行字段限定检索,并提高检索速度;索引方式的确定,以字段为单位。索引方式有四种:全字段作为一个完整单位作索引;以 标引符号内字符串作索引;以%分割的重复字段作索引;每个字作索引(单字索引,主要用于正文字段)。在一条记录中,字段的个数应不限,一般最多能达到数百个字段。
1.2 数据预处理模块由于全文数据库的数据基本上来源于外部数据,对不同格式的数据处理采用不同的方法。
电子排版文本。这种文本中含有排版符号。如果全文数据库建立在这种排版软件基础上,则文本无需加工。但多数全文数据库系统并非建立在这种排版文本基础上的,因此有必要通过软件一次全部删除排版符号,同时应解决由于删除排版符号而带来的问题,如补字、数学公式、上下标等等,使之成为完整的纯文本文件。
网上下载的PDF文件、网页文件、光盘上记录的某些特殊格式的数据。如果全文系统采用纯文本格式,则需对其转换。
以上这些文件的转换,需要编制工具软件,或利用已有的转换工具。
文本预处理还包括数据的批式标引。这是建立全文数据库之前特别是数据装载之前,主要是利用文字处理软件和专门自动标引软件对数据进行的标引,或按自己建立的标引词表,对文本进行的扫描标引。
1.3 装库模块装库就是将数据预处理后的文本数据导入已有的库结构之中。
有的全文库要求将数据转换成ISO2709(CNMARC)格式才能装库;有时可将有一定标志的文本格式装库;有的则将文本按原格式导入库结构;有的不实际装库,只在系统中建立指向文本文件地址的指针。可以根据具体情况选择装库方式,但最后一种方法不推荐使用。
1.4 标引模块全文库正文的单字索引,不必建立,因为系统有识别每个汉字和其他符号或外文字串索引功能。
在以单字为基础的索引中,以布尔逻辑为手段进行检索,误检率极高,需以位置检索手段进行检索,用以提高查准率。以单字为基础的索引的优点在于不需要人工标引,可实现索引的自动化,从而大大提高了建库的效率。但单字索引也存在明显的缺点,即同义词、相关词无法控制,解决办法可以通过在检索匹配模块设置后控词表进行后控检索。
1.5 索引作业模块索引作业就是按照库结构定义中的索引字段生成索引的过程,一般生成一个索引即可。为了区别不同字段的索引款目,可以在索引定义中加文字常量。这样在混排索引中就可以把不同属性的索引款目相对集中,在检索时,可以进行按字顺显示。如要检索作者为高山的著作,应这样输入检索式:AU = 高山,从而可以避免检出作为关键词的高山及正文中的高山。全文索引的主体应该是正文的单字索引,借助这种索引可以使全文中的任何信息、中心主题信息与边缘性信息都能被检索出来,避免标引中的遗漏和主观武断,从而实现检索的彻底性。
1.6用户输入检索式模
您可能关注的文档
- 中国文化下的俄狄浦斯情结_无鸾.doc
- 中国新企业年金替代率测算及其敏感性分析-_期限结构.doc
- 中国新企业年金替代率研究-_敏感性分析.doc
- 中国星级饭店发展历程_影响因素.doc
- 中国是否属于亚细亚生产方式的当前论争_社会发展阶段.doc
- 中国服务业就业吸纳能力下降之谜_第三产业.doc
- 中国服务贸易进口结构与经济增长的实证分析_贸易逆差.doc
- 中国未来主要金融风险潜在爆发点_人民币.doc
- 中国民营上市公司可持续增长财务问题实证研究_财务能力.doc
- 中国消费率变动趋势及其影响因素分析_投资率.doc
- 中国行业标准 DB/T 100-2024区域性地震安全性评价.pdf
- 《GM/T 0138-2024C-V2X车联网证书策略与认证业务声明框架》.pdf
- GM/T 0138-2024C-V2X车联网证书策略与认证业务声明框架.pdf
- DB/T 100-2024区域性地震安全性评价.pdf
- 中国行业标准 GM/T 0138-2024C-V2X车联网证书策略与认证业务声明框架.pdf
- 校园周边书店阅读氛围对初中生阅读素养提升的影响研究教学研究课题报告.docx
- 初中校园餐饮卫生监管与食品安全教育创新模式研究教学研究课题报告.docx
- 《文化遗产保护与旅游开发平衡机制的法律法规完善研究》教学研究课题报告.docx
- 《农作物病虫害生物防治技术的经济效益与社会影响分析》教学研究课题报告.docx
- 1 剖宫产术后子宫瘢痕憩室治疗中的并发症预防与护理措施教学研究课题报告.docx
文档评论(0)