语料标注地速成教程:自己做个半自动标注器.pdfVIP

  • 134
  • 0
  • 约1.09万字
  • 约 26页
  • 2018-06-01 发布于江苏
  • 举报

语料标注地速成教程:自己做个半自动标注器.pdf

语料标注地速成教程:自己做个半自动标注器

《语料标注的速成教程:自己做个半自动标注器》 作者:李亮 (广东外语外贸大学 词典学中心 ) 2012 年 8 月 17 日 Email: 492130980@ 【步骤1】语料经过标注,就变得很有深度,能提供前所未有的信息,就从 “生语料” 变成了 “熟语料”,假设我们对good 这个形容词标注一下词性,就有下面的3 种主要 做法。国内的中文语料标注主要是斜线型,某些经典的英语语料采用了下划线型,而 最新的主流是XML 型; 【步骤2 】知识分子天天打交道的Microsoft Office Word 的功能远远超过普通人的想 象,而当代的定性标注工具在语言教学与研究中扮演着重要的角色,例如,语义韵研 究、社会语言学、语言测试、词典学、翻译学、文化学、二语习得研究,往往需要对 自然语料中的词汇的语义呀,语用呀,进行种种精细的评价或深入梳理,而我们在使 用复杂而先进的商业版的定性分析标注工具之前,往往可以自己做个半自动定性标注 工具来体验一下; 【步骤3 】从Word 97 到最新的Word 2013 ,它们的一切操作都是基于VBA 编程语言 的,Visual Basic for Application 这门语言是BASIC 语言的精简版,掌握一些浅显的 代码编写往往能释放巨大的Office 在语料加工与统计中的能量;我们点“工具”的“宏” 的 “Visual Basic 编辑器”就进入当前这个Word 文件的后台了; 【步骤4 】VBA 编程用到的都是最常见的英语单词,什么if ,什么loop 之类的;在当 前这个 doc 文件的后台写的代码就保存在它的本体,你带到其他电脑上也依然含有这 些程序代码的; 【步骤5 】双击左侧的“ThisDocument ”,我们就开始写非常实用的几句VBA 代码了; 【步骤6 】双击 “ThisDocument ”就看到右侧区域出现了 “空白的工作区”; 【步骤 7】我们写出 4 行代码就是第一份作品或第一个软件了!sub 就是 subroutine 或 subprocedure,在 Office 中相当于一个独立运行的小软件呢;第一行的 verb 这个 词表示 “软件名称”,后面的 “()”是左圆括号和右圆括号,selection 表示我们要标注 的一个片断且已经被我们用鼠标选中了,InsertBefore 和 InsertAfter 这是两个动作, 显而易见,就是在被选中的单词前后 “新增”; 【步骤8 】写好代码,就要保存一下…… 【步骤9 】保存好,就点右上角的 “小黑叉”,退出 “代码编辑状态”; 【步骤

文档评论(0)

1亿VIP精品文档

相关文档