- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
附件1:语料文件命名格式
汉语树库构建——使用手册
周 强
清华大学计算机系
智能技术与系统国家重点实验室
北京100084
zhouq@
语料文件标注格式说明
目前完成的句法树库按文体分为文学、新闻、学术、应用四类,总规模约100万汉字。各类语料按文本文件的方式组织。每个标注文件的基本命名格式为:类型标记 文件序号 . 文件后缀。具体的分类说明如下:
(1)文学类
小说(包括普通小说、爱情小说、科幻小说、侦探小说等门类):类型标记XSA, XSB
散文(包括杂文、小品文等):类型标记SW
剧本(包括谈话、演讲):类型标记HJ
(2)新闻类:
回忆录(包括传记):类型标记HYL
时事报道:类型标记NEWS
(3)学术专著(包括人文与社会科学、自然科学的各子类):类型标记BAIKE
(4)应用类:类型标记YYW
文件后缀统一为pct。
各个语料文件的基本标注格式为:{句子序号 {词语/词类 + 句法成分标注 } 回车符}。其中的句法成分标注格式为: [ 功能标记+结构信息标记 … ]。下面是几个具体标注实例:
1 [dj-ZW [np-DZ 香港/nS [np-DZ 基层/n 组织/n ] ] [vp-ZZ 积极/aD [vp-PO 推广/v 基本法/n ] ] ]
2 [dj-ZW [np-DZ [mp-DZ 一/m 批/qN ] 公务员/n ] [vp-PO 参加/v 讲习班/n ] ]
3 [pp-JB 据/p [np-DZ [sp-DZ 新华社/nO 香港/nS ] [np-DZ [tp-DZ [tp-DZ 3/m 月/qT ] [tp-DZ 14/m 日/qT ] ] 电/n ] ] ]
4 [zj-XX [fj-LS [dj-ZW [np-DZ 香港/nS [np-DZ [mp-DZ 各/rB 界/qN ] [np-DZ 基层/n 组织/n ] ] ] [vp-ZZ [pp-JB 通过/p [np-DZ [mp-DZ 多/m 种/qN ] 形式/n ] ] [vp-PO 推广/v 基本法/n ] ] ] ,/, [vp-ZZ [pp-JB 为/p [np-DZ 香港/nS 的/u [np-DZ 平稳/a 过渡/vN ] ] ] [vp-PO 开展/v [np-DZ 实际/a 工作/n ] ] ] ] 。/。 ]
分析树显示和校对辅助工具
为了更方便地显示句法树的分析层次,并提高分析树校对的工作效率,我们开发了一个基于窗口操作的句法树显示和校对辅助工具(TreeTuner.exe),其操作界面如下图所示。其中,窗口上部是句子文本信息显示窗口,从中可以了解句子的整体信息。右边有两个控制按钮,可以顺序选择所要校对的句子。窗口下部是句法层次树,可以完成各种分析错误的发现和调整操作。
这个校对辅助工具的基本使用步骤为:
读入句法树标注结果:
点击菜单项:‘文件’( ‘打开’,在对话框中选择需校对的文件,程序将文件内容读入,并自动打开第一句句子的有关信息。
选择句子
选择首句:跳到当前树库文件的第一句,使用快捷键Home
选择末句:跳到当前树库文件的最后一句,使用快捷键End
选择上一句:跳到当前句子的上一句,使用快捷键PageUp,或单击‘上一句’
选择下一句:跳到当前句子的下一句,使用快捷键PageDown,或单击‘下一句’
选择特定序号句子:点击菜单项:‘选择句子’( ‘跳到…’,在弹出的信息框中输入句子序号,可以直接跳到树库文件中特定编号的句子
分析树调整
校对者可以通过以下基本操作,在句法树窗口中,对句法树的信息进行修改和调整:
A.删除句法成分
选定某个待删除的句法成分,按DEL键,可以删除此节点,并使它的所有子节点与它的兄弟节点处于同一层次中。
B.插入句法成分
选定两个以上相邻的子节点序列,按INS键,可以插入一个父节点,并在节点位置上输入父节点的句法标记信息。
C.节点缩放
双击某个句法成分节点,可以缩放此句法成分的所有子树信息。
D.节点拖放
可以通过节点拖放,改变句法树层次。具体方法是把某个节点拖放到目标节点的父节点上,程序会自动根据节点所覆盖的词语的顺序进行自动排序,形成新的节点分布关系。
E.修改节点标记信息
选定某个待修改的词语(叶节点)或句法成分(中间节点),单击鼠标,在弹出的对话框中修改相应的词语、词类标记或句法标记
您可能关注的文档
- 辽宁职业教育强省建设五年行动计划 - 内容管理系统.doc
- 运用“经济全球化” - 阳泉市教育资源公共服务平台.ppt
- 辽东学院看图炒股教程.ppt
- 运用适当的市场营销组合.ppt
- 辽宁省河湖(库)健康评价及治理对策.doc
- 运行设计.doc
- 课程目标 - 课程中心 - 湖南大学.ppt
- 远离“亚健康状态”.ppt
- 选择填空题是给出了备选答案,要求大家选择适合的选项填入下划线中 .doc
- 选项卡的“图表样式”.ppt
- 附件1: 2011年广东省计算机教育软件评审活动暨 第十五届全国多媒体 .doc
- 附件1:陕西电子科技职业学院2017届毕业生生源信息 - 经济法学院.doc
- 附件1:第十七届上城区教师自制多媒体教育软件评比活动指南.doc
- 附件2: - 安徽邮电职业技术学院.doc
- 附件2:2016北京教育装备论坛活动安排表 - 北京理工大学.doc
- 附件2: 东莞市预拌砂浆(湿拌)生产企业试验室 基本条件 一、人员条件 .doc
- 附件2:广东省“互联网+”试点项目申报表.doc
- 附件2:奉贤区发明专利技术产业化优秀计划项目申报表.doc
- 附件2原材料采购标准 - 浙江双箭.doc
- 附件2:广州市中等职业学校精品课程提交成果编号及相关 - 广州市政府.doc
文档评论(0)