中文信息处理的资源建设.pptVIP

  • 3
  • 0
  • 约6.1千字
  • 约 29页
  • 2016-11-25 发布于山西
  • 举报
中文信息处理的资源建设

中文信息处理的资源建设 苗 传 江 2006年8月25日 北京师范大学 提纲 1. 语言资源的重要性及其类型 2. 语言资源建设是系统工程 3. 关于语料库建设 4. 知识库建设的基本问题 5. 国内外知识库建设项目简介 6. HNC的知识库建设 7. 语言资源建设的其他若干问题 1. 语言资源的重要性及其类型 重要性 各项技术和应用都离不开语言资源 语言资源制约语言信息处理的发展 语言资源对语言信息处理的竞争有决定意义 语言资源的类型 对言语的记录 对语言的描述 系统是否可直接调用? 基础型还是应用型? 服务于理解还是生成? 是否以语义描述为中心? 2. 语言资源建设是系统工程 系统性 理论方法不同,资源可能不同。 资源建设应与系统实现密切配合。 例如词表建设(收“词”原则和词表的组织) 输入法软件的大“词”表 “类推词”:鸡蛋、鸭蛋、鹌鹑蛋、恐龙蛋…… “异构词”:松花蛋、茶叶蛋、荷包蛋;煎蛋、蒸蛋;鱼蛋、泥蛋、驴粪蛋;笨蛋、坏蛋、蠢蛋 “临时词”:宇迷、保先 专业词:越位、点球、边裁;铲射、吊射、扫射、垫射 工程性 目标明确可行 规模达至应用 注重实际效用 “鸡蛋”应收入词表,而“鸭蛋”未必。 3. 关于语料库建设 语料库有什么作用? 应怎样加工语料库? 何谓“大规模”? 语料库怎么平衡? 现代汉语与语料库建设的当务之急 服务于现代汉语语言知识库建设 文本属性标注 语

文档评论(0)

1亿VIP精品文档

相关文档