- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中医古籍书目数据库标注中若干问题的探讨论文.doc
中医古籍书目数据库标注中若干问题的探讨论文
.. 孙海舒,李斌,王蕊,符永驰
【关键词】 中医古籍;书目数据库;古籍标注
以往中医古籍整理研究采用的传统方式受到技术条件的制约,虽然在中医古籍的保存方面取得了很大成就,但是在利用方面效果并不显著。虽然目前国内对古籍数字化的研究开展了很多项目,而且诸多企业也在积极参与,但由于商业运作模式的不同,各个软件之间很难兼容,而且我们对软件只有使用权,没有修改权,这在很大程度上制约了古籍数字化、智能化的发展。目前,我们采用具有自主知识产权的古籍标注软件以及相应的发布器,..古籍标注软件(古籍编辑器)的作用是通过在原始图像上增加一些置标信息,以便加工后的图像可以被有效地检索。它可以输出中医古籍电子书,电子书包含如下信息:置标信息,可用于全文检索和浏览;原扫描图像,可和文本信息对照使用;包括书目的元数据信息,如分类、成书年(出版年代)、作者、版本、馆藏地、内容提要、书籍特征、保管措施、复制状况等。通过使用古籍编辑器和发布器,不仅实现了中国中医科学院图书馆部分馆藏古籍的数字化,而且赋予了这些古籍智能化的特点。因此,通过标注,彻底改变了这些古籍的传播和使用方式,展现出了大量隐含的有用信息。由于我们对软件具有修改权,为古籍有效信息的深度发掘开拓了巨大的空间,并且为今后古籍数字化、智能化积累了一些可以借鉴的经验。
古籍标注分为语义标注和引导标注,目前我们的工作是引导标注。主要工作是抽取已经图片化古籍中隐含的有效信息,将其文本化,便于检索,有别于全文文本化。从某种意义上来讲,实际上是对古籍目录的扩充。通过对古代医籍的标注,发现了其中一些问题,并且试图找到解决问题的方法。
1 研究意义
中医药古代文献记录了中医学数千年来积累的丰富理论知识和临床经验,不仅具有珍贵的史学价值,而且具有重要的学术研究和开发利用的实用价值,因此,中医古籍在中医学的发展过程中占有极其重要的地位。中医古籍不仅在古代是中医学理论发展和实践探索的源泉和动力,而且对现代中医学的发展和实践也具有启发和指导作用。例如,获得国家科技成果奖的中药“青蒿素”的研制开发,就是受到中医古籍有关“青蒿截疟”记载的启迪。因此,加强对中医古籍内容的深入研究,将会促进中医现代化进程的发展。考虑临床医生、科研人员、医学生等在阅读古籍时确实有很多实际困难,受到时间、空间等多种因素的限制,制约了对古代医籍内容的深度开发,即使有了古籍的电子版本,解决了时间与空间的一般困难,但是要在浩如烟海的众多古籍中找到所需要的信息,仍然是很大的工作量,那么能够检索文本和图片的古籍阅读器将使这个难题迎刃而解,所以针对古籍内容有效信息的抽取将直接影响专业人员对古籍的应用,信息点的取舍直接影响检索结果,所以古籍标注标准解决得当与否决定着古籍阅览器的应用程度,长远来看,影响着专业人员对古籍的深度发掘,进而影响中医事业的健康发展。
2 遇到的问题
古籍标注质量的优劣直接影响专业读者的检索,进而影响对古籍价值的深度发掘与利用,所以探索适合中医古籍的标注标准是十分必要的。首先考虑的问题是古籍标注的深度,以“临证各科”类古籍为例,仅仅按照目录来进行有用信息的提取是远远不能满足专业检索需求的,因为许多有意义的信息点并未包含在目录中,这类书的目录仅编写到“疾病门”,而其中疾病的具体分类、症状、方剂、自拟方的加减、服药宜忌等内容同样是重要的信息点,对这些内容的取舍直接关系到标注细节问题。其次,如何规范字形也是问题之一。古籍标注的基本原则是尊重原文,但是如何处理繁体字,还有诸如通借、古今、异体等文字,对这项工作就要有一个适当的尺度。还有就是针对一些大型著作,如何处理各类“序”、“叙”、“跋”,也是需要慎重处理的问题。
3 标注方法探讨
古籍标注基本分为两大部分,一部分是古籍的自然状况,比如分类、成书年(出版年代)、作者、版本、馆藏地、内容提要、书籍特征、保管措施、复制状况等,这一部分需要专人进行标注。本文针对的主要是古籍内容的标注。
3.1 预览概况
在正式标注之前,应用读图软件对古籍进行浏览,确定书的分册情况,章节信息,有的书目还要留意其具体内容的分类,比如内科杂症类的书籍,除了内科以外,还分别列出妇科、儿科等等;“分科”之下又分“门”、“门”下列“类”,“类”中还根据辨证的差别而继续分列出“阴”、“阳”、“表”、“里”等证。为了利于划分书的清晰层次结构,要根据内容建立不同级别的文件夹,这种结构暂时命名为树状结构。根据数字序列命名,比如一级文件夹为01,二级文件夹则为001,三级文件夹为0001,以此类推,进入编辑界面后可以根据文件夹内容重新命名,但前提是这些分类不能互相跨越。举个例子,如果卷一中的“中风门”跨越到了卷二,那么将不再建下一级文件夹,文件夹仅涉及至
文档评论(0)