第一单元自然语言处理概论.pptVIP

  1. 1、本文档共38页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第一单元自然语言处理概论

第一章 自然语言处理概论 -基于统计的自然语言处理技术 第一章 自然语言处理概论 -基于统计的自然语言处理技术 开场白 研究生是高级人才 高级在哪里 高级在哪里 竞争中的佼佼者? 掌握了更丰富的知识? 真正高级在 真正高级在 独立 独立 不是指不与人合作,闭门造车 具备独立的能力 不是指不与人合作,闭门造车 与人合作的能力是大家在研究生期间必须掌握的基本技能之一 智商与情商 现代心理学研究表明,一个人的成功20%来自于智力因素 其余80%来源于非智力因素,其中最关键的是情绪智力因素 自我意识 自我激励 情绪控制 人际交往 挫折承受力 具备独立的能力 独立发现问题 独立开展研究 独立提出解决方案 独立实现系统 并使系统性能达到最优 本学科的两大特点 繁琐 有趣 繁琐 加工语料、校正词表 有趣 愚蠢的电脑居然做智能状 愚蠢的电脑居然做智能状 音字转换 一只小花猫 机器翻译及其应用激起了人们极其浓厚的兴趣 智能化信息检索 张国荣是同性恋吗 张国荣的爱情观是怎样的 我们现在从事的工作 问答系统 一种新型的智能化的信息检索系统 本人感触最深的关于研究的名言 “Every important idea is simple”列夫托尔斯泰 取法其上... 教材 本实验室编写的教材“计算机自然语言处理技术” 冯志伟:现代语言学丛书 自然语言的计算机处理 张普:汉语信息处理研究 姚天顺:自然语言理解——一种让机器懂得人类语言的研究 Christopher Manning and Hinrich Schutze: Foundations of Statistical Language Processing 解题 中文信息处理 由传统继承而来,不够确切 信息的定义不下百种 信息就是信息,既不是物质,也不是能量 信息是事物之间的差异 信息是用来消除随机不确定性的东西 信息是负熵 信息是有序性的度量 更确切的说法是中文语言处理 基于统计的自然语言处理技术 基于语言学规则的 基于统计的 规则与统计相结合 基于语言学规则的 理性主义的 MIT的N. Chomsky 语言学知识形式化 形式化规则算法化 算法实现 2003年7月2日,“前沿科技”版报道,来自汉堡-埃彭多夫大学医院的学者在 《自然科学》杂志发表最新研究成果初步验证了Chomsky的理论 即人类大脑中先天存在一种跨越不同语言的语法通则 基于统计的 经验主义的 大规模真实语料库中获得语言各级语言单位上的统计信息 并依据较低级语言单位上的统计信息 运用相关的统计推理技术计算较高级语言单位上的统计信息 什么是自然语言处理 是用计算机 通过可计算的方法 对自然语言的各级语言单位(字、词、语句、篇章等等) 进行转换、传输、存贮、分析等加工处理的科学 按语言处理技术的处理对象 字 词 语句 篇章 按照语言处理技术的应用领域 应用基础 应用 交叉性学科 语言学 计算机科学 数学 心理学 信息论 声学 ...... 相关术语 计算语言学 智能化人机接口 自然语言理解 发展概况 从汉字信息处理到汉语信息处理 从单机信息处理到网络信息处理 从汉字信息处理到汉语信息处理 字处理 词处理 语句处理 篇章处理 字处理 汉字机内码 国标码GB2312-80 GB18030 国家信息产业部和质量技术监督局发布 《信息技术和信息交换用汉字编码字符集、基本集的扩充》 汉字输入码 拼音码 七台河一位小学教员...... 五笔字型 汉字字型库 汉字排版系统 北大方正的激光照排系统 1974年8月,经周总理批准,我国开始了一项被命名为“748 工程”的科研,分三个子项目:汉字通信、汉字情报检索和汉字 精密照排。 世界上第一台照排机是“手动式”的,1946年在美 国问世。50年代,美国发展了“光学机械式”二代机。1965年德 国推出“阴极射线管”三代机。1975年英国正在研制的“激光照 排”四代机即将问世。他开创性地以“轮廓加参数”的描述方法和一系列新算法 ,研究出一整套高倍率汉字信息压缩、还原、变倍技术,从而使 研制“激光精密照排”成为可能. 1980年9月15日上午排出了《伍豪之剑》 1980年10月25日,邓小平对北大激光照排系统作了“应加支持”的批示。 1987年,《经济日报》成为我国第一家勇试华光Ⅲ型机的报 纸,完成该系统的总承厂是山东潍坊计算机公司。《经济日报》 一举成为全国最漂亮,出版速度最快的报纸,也是世界上第一家 采用计算机激光屏幕组版、整版输出的中文报纸。第二年7月,经 济日报社印刷厂卖掉了全部铅字,成为世界上第一家彻底废除了 中文铅字的印刷厂。不但厂房面积减少三分之二,耗电量也减少 三分之二强,成本下降四分之一以上。 1994年是748工程二十周年,4月22日,《西藏日报》由

文档评论(0)

panguoxiang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档