敦煌学Web全文数据库标引实现研究.pdfVIP

下载本文档

0
0
约4.28千字
约 3页
2018-01-15 发布于未知
举报
版权申诉

敦煌学Web全文数据库标引实现研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第十七届全国教据库学术会议论文集(技术报告篇) 敦煌学Web全文数据库标引实现赵书城陆卫国马建国 (兰州大学兰州 730000 zhansc@nlzu.edu.on) AbsrtactThefulltextdatabaseranbeperfectlyusedtodealwiththeinformation} ces Thispaperdiscussess』”tthemethodofbuildingthestandarddictionaryandtheapphaetionofchi- nesevocabularysynoopationtechniqueinfulltextdatabasewhenwebuildthedunhuangtglogywel databaseinfulltextfpm KeywadsFullTextDatabaseDataIndexing VocabularySyncopation 1 引言随着Internet的普及与发展，Wel〕全文数据库已成为获取知识与信息的重要渠道。 Web全文数据库是一种存储全文文献并能够通过Internet网提供全文检索的源数据库，它既有Wet 数据库的特点又有全文数据库的特点，主要有如下几个方面: (1)客户/服务器体系结构。客户通过工。temet网异地查询检索存储在服务器端的全文文献。 (2)数据信息的原始性。库中的文献都是原始文本，未经任何加工，具有客观性 (3)信息检索的彻底性。可以对文中的任意词进行检索。 (4)数据的相对稳定性。库中的数据信息一般不需要更新。 (5)灵活方便性。一般的全文数据库在客户端必须安装全文检索系统软件才能进行检索，而Wel〕全文数据库只需客户端装有浏览器既可通过Internet网检索查询数据。 Web全文数据库的开发一般包括以下几个步骤: (1)数据准备。对计划加载到全文数据库中的数据进行收集、整理、归类等预处理过程。 (2)数据的标引。在分析文献内容的基础上，用某种标识符号把文献的主题概念及其他有检索意义的特征标示出来，作为文献检索的依据。 (3)数据的录入。将准备好的数据加载到数据库文件中去。 (4)网上数据查询的实现。采用相关技术实现网上全文数据库的发布。 (5)数据的维护。全文数据库建立以后，对数据库内容的更新、追加和清理，以保证数据库的实用性、有效性和时新性。本文主要探讨教煌学Web全文数据库数据标引的实现。 2 敦煌学Web全文数据库数据的标引目前，全文数据库常用的标引技术有词典标引、单字标引和一些特殊的标引方法。单字标引实际上也称为全标引，因为正文中的每个字均被作为标引词。它的优点是不需要人工智力标引，可实现索引的自动化，提高建库效率。但同时存在误检率高等缺点。为了弥补全自动标引的不足，需要在此基础上进行半自动标引，常采用一些特殊标引技术。例如，属性标引、加注标引和方面词标引等。这些特殊标引往往需要 277 第十七届全国数据库学术会议论文集(技术报告篇) 人工于预。词典标引，顾名思义就是预先建立切分同典，以该词典为依据将文本字串与词典条目逐一比较，匹配成功则以该字串作为索引项它的优点在于，比较容易实现对同义词、近义词等的控制，查全率与查准率相对较高，适合某专业学科领域。但词表的维护需要付出相当大的代价。由于教煌学专业学科性很强，并且专业词汇相对较小，因此我们采用的是词典标引法。词典标引首先必须建立词典，由于没有敦煌学专用的词典，因此，我们采用统计抽样的方法建立标准词典。对整理、收集起来的原始文献进行词汇的统计。由于汉语中最大词汇长度不太可能超过8，因此，我们假设任意的汉字字符序列都组成一个词汇，取最大的词汇长度为8，并且考虑到中英文混现象以及特殊符号在词汇统计中的影响。例如，标点符号、数字以及英文字母前后的汉字不可能组成一个词汇。同时统计记录下每个字符序列的总的出现