- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
汉语言文字信息处理状况分析
汉语言文字信息处理状况分析
詹卫东
北京大学
摘 要 本文第一节概括说明了汉语言文字信息处理的整体态势,以及本文选择哪些内容作
为重点分析对象的理由;第二节集中分析了核心技术的现状;第三节分析了应用系统的现状;
第四节评述语言资源建设的情况;第五节是结语,指出了本领域值得注意的新动向。
关键词 汉语 信息处理 技术评测 信息检索 机器翻译 语料库 语言资源
一 汉语言文字信息处理现状概述
自然语言(在本文中具体关注的是汉语语言文字)的信息处理,是一个涉及到计算机科
学、语言学、文字学、数学、逻辑、认知科学等多个学科的交叉研究领域。对于这样一个交
叉特点鲜明的领域,可以从不同视角,在不同层次上来认识。为了更好地概括说明这一领域
目前的理论研究以及实际应用状况,本文首先为这一领域勾勒一个相对全面的框架(表一和
图一)。然后再针对这个框架中“相对更值得一说”的部分展开来加以分析和讨论。
表一:汉语言文字信息处理的对象、层次和任务(虚线表示并不总是有严格界限)
对象 书面文本 口语语音
任务 [视觉符号] [听觉符号]
层次
文本理解 ⎡机器翻译 信息检索…⎤ 语音识别 ⎡口语翻译…⎤
处理符号的意义 ⎢ ⎥ ⎢ ⎥
文本生成 ⎣文本摘要 问答系统…⎦ 语音合成 ⎣口语问答…⎦
汉字输入、存储、输出 语音信号采集、
处理符号的形式
篇章版式分解与生成 波形特征抽取、波形生成
图一:汉语言文字信息处理的宏观架构1
…… …… …… 多语信息服务系统,
服务平台层
智能终端 ……
应用系统层 问答系统 ……
机器翻译 信息检索 信息提取 文本校对
核心技术层
词语切分 句法分析 句对齐 索引、检索 ……
基础资源层 ……
语料库 词库 规则库 字库 语音库
1 图一基本上可以看作是对表一中“符号的意义处理”这个层次的展开(“符号的形式处理”已经得到普遍
应用,因此本文描述从简)。图一中提及的大多数概念都是针对“书面文本”信息处理的,但关于“基础资
源”“核心技术”“应
您可能关注的文档
- 怎样使头发变得既乌黑又浓密(生活之养生美容).pdf
- 怎样去除下眼袋 解密怎样去眼袋又好又快.pdf
- 怎样可以使双腿变直几个小窍门让你的腿变得又细又长!.pdf
- 怎样去眼袋又好又快 让您告别眼袋烦恼.doc
- 怎样去眼袋又快又好 推荐如何快速有效去眼袋.pdf
- 怎样能使腿变长小腿变细?几个小窍门让你的腿变得又细又长.pdf
- 怕落后把午睡的习惯改了_雷军.pdf
- 思为絪酝 言乃不息.pdf
- 恒管举行「校长与领袖同『恒』」电台节目启动礼.PDF
- 恒生指数的资讯供应商.PDF
- 四川省德阳市罗江中学2025届高三考前热身化学试卷含解析.doc
- 山东省枣庄现代实验学校2025届高三下学期第五次调研考试化学试题含解析.doc
- 吉林省长春市十一高中等九校教育联盟2025届高三一诊考试生物试卷含解析.doc
- 2025届江苏省盐城市伍佑中学高考仿真模拟化学试卷含解析.doc
- 2025届广西贺州中学高考冲刺押题(最后一卷)生物试卷含解析.doc
- 安徽省池州市贵池区2025届高三第一次模拟考试生物试卷含解析.doc
- 宁夏银川一中2025届高三(最后冲刺)化学试卷含解析.doc
- 广东省广州市增城区四校联考2025届高考压轴卷化学试卷含解析.doc
- 2025届邯郸市第一中学高考生物必刷试卷含解析.doc
- 2025届安徽省安庆市石化第一中学高考仿真卷化学试卷含解析.doc
文档评论(0)