- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
自建学习者语料库
自建学习者语料库 王立非 philipw@126.com 提纲: Why use a corpus? Why use electronic text? To study knowledge of language through specimens of language use: naturally-occurring data ... Accessibility Speed: can be analyzed more quickly Accuracy: for some tasks, processing e-text is more accurate than eye scan 种类: A. by medium: printed, electronic text, digitized speech, video (e.g. for ASL), mixed C. language variables: monolingual vs. multilingual (CHILDES database) original vs. translations (parallel) native speaker vs. learner (e.g. corpora of learner compositions) Taxonomies of corpora D. language states: synchronic vs. diachronic (e.g. Brown vs. Helsinki Diachronic corpus) E. Plain vs. annotated 语料库分层结构: 建口语库流程: 口语库建设流程: 口语库结构: 语料命名: 三类标注: 文本头标注: 文本头标注: 口语特征标注: 语法错误标注: 建书面语库 Annotation of corpora Automatic tagging and manual tagging A. Header mark-up B. Part-of-speech tagging C. Syntactic annotation (parsed corpora) D. Pragmatic annotation E. Rhetorical information F. Discourse structure 文本头标注: 词性(POS)自动赋码: Corpus is the mainstream!-- G. Leech * * 语料库的定义/种类/规模 建库原则/设计 建设口语库 建设书面语库 文本头标注 Bodies of natural language material (whole texts, samples from texts, or sometimes just unconnected sentences), which are stored in machine-readable form. What is a corpus? Voice data is also corpus! 5-10万词(小型) 100万词(中型) 5000万词(大型) 1亿词(特大型) 语料库规模: 学习者语料库设计 语言 学习者 媒介 年龄 风格 性别 话题 母语 技术性 地区 任务环境 其他外语 语言水平 学习环境 实际经验 语料库设计应考虑(Granger 2003): 语料库设计: 学习者语料库 口语子库 笔语子库 已 附 码 未 附 码 未 附 码 已 附 码 筛选样本。 将录音磁带上的口语原声转录进计算机。 对数码语音文件命名。 对数码语音文件的音质进行检测。 对小部分音质差的语音重新转录。 组织人工逐一听抄录音。 将听抄文字内容输入电脑。 对文本文件命名。 标注语法错误。 对部分口语特征进行标注。 语音文件与文字文件配对检验。 第一次校对。 第二次校对。 抽检语音和文字样本。 将文字(WORD)文件格式转换为纯文本(TEXT)文件格式。 对纯文本文件进行切分。 对每条切分过的文本语料进行文本头标注。 对语料库进行统计分析。 将部分语
您可能关注的文档
最近下载
- 托育服务人员的培训与教育.docx
- 冀人版-第11课 电在我家(教学课件).pptx VIP
- 食品安全突发事件应急处置培训课件.pptx VIP
- 2025至2030中国电镀行业发展空间与未来投资走势预测报告.docx VIP
- 汽车智能底盘原理及技术 第3章 线控制动系统.ppt VIP
- 大学课程《工程制图与识图》PPT课件:第三章 基本体的投影 第一节 平面体的投影.pptx VIP
- FANUC数控系统0i-F Plus维修说明书(非常详细).pdf VIP
- 中医基础理论-体质学说 赖伟.ppt VIP
- 生产组织培训课件.pptx VIP
- 工业机器人离线编程与仿真(ABB)高职全套教学课件.pptx VIP
文档评论(0)