- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
从直接标记到压缩标记
—— 以《全宋文》墓志铭为例
摘要 本质上,直接标记和压缩标记都是利用自然语言表述中的固有规则来提取信息。
直接标记有其优势,但在某些情况下却无法直接运用。比如在所提取数据本身并无规
则而数据周边却是较为有规则的表述时,此时要先进行句子压缩和删除干扰信息然后
在标记,就能够在不影响选取的前提下大幅提高所提取数据的精确度。
关键词 句子压缩 正则表达式 信息标记
From direct tagging to Tagging with sentences compression
——Taking Epitaphs in Quansongwen as an Example
Abstract In essence, the two tagging methods (direct tagging and tagging with sentences
compression) are to tag the information we need by using regular expression which basing
on the inherent language patterns of the natural language. Though it has many advantages in
extracting regular data, Direct tagging is not applicable to some situations. if the data we
need extract is not regular and its surrounding words are regular is relatively regular, then
we can use information compression to cut the information we do not need before we
tagging the data we need. In this way we can increase the precision of the data while not
undermine the recall of the data.
Keywords Sentences compression; Regular expression; Data tagging
1 问题的发现
目前中国历代人物传记资料库(Chinese Biographical Database, 以下简称CBDB )
在建设数据库时主要采用的方法是标记(tagging )即先利用正则表达式提取文献中的
信息,再通过人工审核补充标记的方法进行的。其主要流程为:第一步,首先整理出
文献的电子文本,然后对文献进行一些简单的编辑处理以理清材料的出处、时间、作
者和主题。第二步,明确所需要提取的具体信息。对于CBDB 来说,人名、地名、官
名、生卒年、亲属关系以及社会关系等是主要提取的对象。第三步,编辑正则表达式。
而利用正则表达式提取信息,则需要熟悉相关信息的表达格式,做到用尽可能少的正
则表达式提取尽可能多的信息。第四步,编写程序,将所需信息提取出并放入相应的
表格中,同时在原文中标记出来,以便后期审核。第五步,人工校对,查漏补缺,完
善数据格式。第六步,放入数据库中。当然,这些步骤之间并非毫无关联,而且它们
之间的关联不仅仅存在于在前步骤对于在后步骤的影响,同时也存在于在后步骤对于
在前步骤的影响,各步骤间既有“传导—决定”也有“反馈—改进”的关系。没有正
则表达式而仅仅依靠人工提取信息会耗费大量时间、影响工作效率;而人工审核又会
反馈出之前正则表达式的不足,为修改正则表达式提供支持。
笔者在做《全宋文》墓志铭信息提取工作时就先尝试使用这个方法。不过在实践
过程发现了一些问题,主要是提取人名中容易出现问题。在长辈姓名提取中这个问题
并不明显,因为有许多关键词比如讳、曰、娶、氏和句尾标点等符号作为人名的提示,
计算机能够识别出这些特征并进行提取。但是在子孙辈提取姓名时会出现计算机无法
精确地识别人名的问题,比如下面这一句信息:
孫男二十人:長仲俶,右武衛大將軍、眉州刺史;次仲誘,右武衛大將軍、茂州
刺史;次仲虺,右武衛大將軍、春州刺史;次仲罃,右監門衛大將軍;次仲沃、仲芮、
仲雪、仲敔、仲靡,并右千牛衛將軍;次仲頎、仲霤、仲吟、仲醻、仲逢,并太子右
文档评论(0)