传媒语言语料库的建与应用.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
传媒语言语料库的 建设与应用 中国传媒大学 播音主持艺术学院 侯 敏 houminxx@263.net * * 主要内容 一、建设传媒语言语料库的目的 二、传媒语言语料库的结构 三、语料的采集与标注 四、传媒语言语料库的应用 五、目前存在的问题 一、建设传媒语言语料库的目的 语料库已成为语言研究和自然语言信息处理研究 的信息源和知识源,成为一种必要的现代化的研 究工具和手段; 广播电视语言对社会语言生活具有深远的影响; 为我院教师、研究生研究广播电视语言搭建一个 平台,提供语言资源及现代化工具,为教学服务; 为所有对传媒有声语言、尤其是 广播电视语言有 兴趣的人员提供研究资源及现代化工具,为社会 服务。 二、传媒语言语料库的结构 传媒语料库 文本语料库 音视频语料库 文本 生语料库 文本 熟语料库 音视频 生语料库 音视频 熟语料库 生语料库检索界面 /rawpub 熟语料库检索界面 音视频语料库点播系统界面 三、语料的采集与标注 语料的采集 ? 文本语料的采集 ? 音视频语料的采集 语料的标注 ? 文本语料的标注 ? 音视频语料的标注 音视频采集工作站 磁盘阵列 语料加工工作站 服务器 用户浏览查询终端 DVD录像机 数字化工作站 转写工作站 互联网 工作流程 音频语料的采集和标注 语料规模:大约400小时 语料内容:以新闻节目为主 电视节目:340小时 广播节目:50小时 其 他:10小时 已 标 注:1小时 标注工具:开发了一个面向汉语的语音标注系统 将Tcl的跨平台性能、Tk卓越的图形界面、Snack的可视化语音功能整合在一起,在绘制波形、语图、音高曲线等方面省时省力; 标注文件可以和其他语音处理软件兼容,如PRAAT等; 中文界面,实现了中文语音文件的汉字标注。 基于Tcl/Tk+Snack开发的语音标注工具界面 基于Tcl/Tk+Snack工具开发的标注工具界面及标注实例 汉字层 拼音层 声韵层 停断层 重音层 采集原则:以节目文本为单位,全面采样,力求均衡; 语料来源:电台、电视台网站的节目文本; 选样参数:大陆与港台、中央与地方、不同的语言样态 不同的受众群体、不同的内容领域…… 目前规模:目前已达到5000万字(不包括篇头信息) 电视语料4000万; 包括17家电视台,165个电视栏目; 广播语料1000万; 包括22家电台,133个广播栏目; 总共有12396个文件。 文本语料的采集 文本语料的标注 篇头信息:各种背景信息的标注(元数据) 篇体信息:自动分词 词性信息标注 语体信息标注 句法信息标注 语义关系信息标注 语用信息标注 篇章关系标注 已做 正在做 许多/m 游客/n 在/p 景点/n 前/f “/w 望票兴叹/v/i/ls ”/w 。/w 游客/n 是/v “/w 车/n 到/v 山/n 前/f ”/w ,/w 进退两难/v/i ,/w 大老远/a/ky 慕名而来/v/l ,/w 如/c 不/d 进去/v 游览/v ,/w 实在/d 不/d 甘心/v ,/w 而/c 要/v 了却/v “/w 到此一游/v/l ”/w 的/u 心愿/n ,/w 一行/n 三五/m 人/n 就/d 得/v 先/d 掏/v 几百/m 元/q 的/u “/w 进门费/n/ls ”/w 。/w 词性标注样本 熟语的双层标注 语体信息标注

文档评论(0)

zhonglanzhuoshi + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档