- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
附件1语料文件命名格式.doc
汉语树库构建——使用手册
周 强
清华大学计算机系
智能技术与系统国家重点实验室
北京100084
zhouq@
语料文件标注格式说明
目前完成的句法树库按文体分为文学、新闻、学术、应用四类,总规模约100万汉字。各类语料按文本文件的方式组织。每个标注文件的基本命名格式为:类型标记 文件序号 . 文件后缀。具体的分类说明如下:
(1)文学类
小说(包括普通小说、爱情小说、科幻小说、侦探小说等门类):类型标记XSA, XSB
散文(包括杂文、小品文等):类型标记SW
剧本(包括谈话、演讲):类型标记HJ
(2)新闻类:
回忆录(包括传记):类型标记HYL
时事报道:类型标记NEWS
(3)学术专著(包括人文与社会科学、自然科学的各子类):类型标记BAIKE
(4)应用类:类型标记YYW
文件后缀统一为pct。
各个语料文件的基本标注格式为:{句子序号 {词语/词类 + 句法成分标注 } 回车符}。其中的句法成分标注格式为: [ 功能标记+结构信息标记 … ]。下面是几个具体标注实例:
1 [dj-ZW [np-DZ 香港/nS [np-DZ 基层/n 组织/n ] ] [vp-ZZ 积极/aD [vp-PO 推广/v 基本法/n ] ] ]
2 [dj-ZW [np-DZ [mp-DZ 一/m 批/qN ] 公务员/n ] [vp-PO 参加/v 讲习班/n ] ]
3 [pp-JB 据/p [np-DZ [sp-DZ 新华社/nO 香港/nS ] [np-DZ [tp-DZ [tp-DZ 3/m 月/qT ] [tp-DZ 14/m 日/qT ] ] 电/n ] ] ]
4 [zj-XX [fj-LS [dj-ZW [np-DZ 香港/nS [np-DZ [mp-DZ 各/rB 界/qN ] [np-DZ 基层/n 组织/n ] ] ] [vp-ZZ [pp-JB 通过/p [np-DZ [mp-DZ 多/m 种/qN ] 形式/n ] ] [vp-PO 推广/v 基本法/n ] ] ] ,/, [vp-ZZ [pp-JB 为/p [np-DZ 香港/nS 的/u [np-DZ 平稳/a 过渡/vN ] ] ] [vp-PO 开展/v [np-DZ 实际/a 工作/n ] ] ] ] 。/。 ]
分析树显示和校对辅助工具
为了更方便地显示句法树的分析层次,并提高分析树校对的工作效率,我们开发了一个基于窗口操作的句法树显示和校对辅助工具(TreeTuner.exe),其操作界面如下图所示。其中,窗口上部是句子文本信息显示窗口,从中可以了解句子的整体信息。右边有两个控制按钮,可以顺序选择所要校对的句子。窗口下部是句法层次树,可以完成各种分析错误的发现和调整操作。
这个校对辅助工具的基本使用步骤为:
读入句法树标注结果:
点击菜单项:‘文件’( ‘打开’,在对话框中选择需校对的文件,程序将文件内容读入,并自动打开第一句句子的有关信息。
选择句子
选择首句:跳到当前树库文件的第一句,使用快捷键Home
选择末句:跳到当前树库文件的最后一句,使用快捷键End
选择上一句:跳到当前句子的上一句,使用快捷键PageUp,或单击‘上一句’
选择下一句:跳到当前句子的下一句,使用快捷键PageDown,或单击‘下一句’
选择特定序号句子:点击菜单项:‘选择句子’( ‘跳到…’,在弹出的信息框中输入句子序号,可以直接跳到树库文件中特定编号的句子
分析树调整
校对者可以通过以下基本操作,在句法树窗口中,对句法树的信息进行修改和调整:
A.删除句法成分
选定某个待删除的句法成分,按DEL键,可以删除此节点,并使它的所有子节点与它的兄弟节点处于同一层次中。
B.插入句法成分
选定两个以上相邻的子节点序列,按INS键,可以插入一个父节点,并在节点位置上输入父节点的句法标记信息。
C.节点缩放
双击某个句法成分节点,可以缩放此句法成分的所有子树信息。
D.节点拖放
可以通过节点拖放,改变句法树层次。具体方法是把某个节点拖放到目标节点的父节点上,程序会自动根据节点所覆盖的词语的顺序进行自动排序,形成新的节点分布关系。
E.修改节点标记信息
选定某个待修改的词语(叶节点)或句法成分(中间节点),单击鼠标,在弹出的对话框中修改相应的词语、词类标记或句法标记
文档评论(0)