- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语言计算:信息科学技术中长期发展的战略制高点
清华大学智能技术与系统国家重点实验室
孙茂松
一、 基于语义的内容计算
随着互联网以及大规模数据存储体系的迅猛发展,人类已经进入名副其实的
海量信息时代。例如,著名的搜索引擎 Google 的检索范围已达 80 多亿张网页,
允许对近三十种语言进行搜索(包括英语、主要欧洲国家语言、日语、中文简繁
体、朝鲜语等)。人类知识更新的步伐日新月异。据激光打印机发明人 Gary
Starkweather 博士称:在 1750~1950 年中,知识增长的速度是 150 年翻一番,而
1950~1960 年间,10 年就翻了一番,1960~1992 年间,翻番时间已缩短到 5 年。
期望到 2020 年,信息量每 73 天就将翻一番。绝大多数新产生出来的信息都是数
字化的,同时旧的信息也正在通过大型的数字图书馆计划不断地在被数字化中。
可以设想,在不远的将来,互联网上将集聚人类有史以来创造的几乎全部知识。
然而,拥有海量数据仅仅意味着人类拥有全面、深入、方便地驾驭这些海量
数据中所蕴涵知识的潜在可能性,但可能性与现实性有天壤之别。现实状况是:
目前对海量数据的操作主要还在信息检索阶段,根本谈不上构建于其上的知识组
织、总结及分析。即使是信息检索这个比较初级的任务,效果也很不理想:TREC
2004 Terabyte Track 的测试结果显示,文本信息检索的最高精度不超过 30% 。而
对声音、图象、视像等的搜索能力就更差了。就目前状况而言,互联网这个知识
海洋颇像虚拟世界中巨大无比的“黑洞”,大多数宝物都被默默地埋藏于幽深的海
底难见天日,而我们却缺乏有效手段实现随心所欲的“大海捞针”,只好无奈地“望
洋兴叹” 。人类正面临着一种前所未有的尴尬与困惑的局面:对数字信息利用的
有效率极其低下。换个形象的说法, 互联网象个大茶壶,它的壶体正在急剧膨胀,
颇有“醉里乾坤大, 壶中日月长” 的味道,但茶壶嘴几乎没有扩张,虽然大肚能容,有
货却倒不出来。
必须指出,计算机的运算速度、磁盘容量、存取效率、网络带宽等因素与解
决这个问题并无实质性关系(著名的摩尔定律指出,计算机的性能每 18 个月翻
一番。目前的发展实际超越了摩尔定律,如 3 年内图形处理能力提高了 100 倍,
网络带宽增加了64 倍)。彻底扭转此被动局面的唯一途径是,信息处理必须跨越
到基于语义的内容计算。
这一跨越在信息处理的研究与应用两大方面都将是无与伦比的,一旦得以完
成,将会导致信息技术出现一场全新的革命,推动人类从虚拟世界的必然王国走
进自由王国,其重大意义无论怎么讲都不过分,经济效益和社会效益不可估量:
(1)科学意义:实现以信息为中心的计算(Information-centric Computing )。
放大人类的智能,而非简单地放大人类的工具。
(2 )国家基础设施建设:从 Web 走向互联网发明人暨 W3C 主席 Tim Berbers
Lee1998 年提出的语义 Web(虽然笔者认为, 在中近期实现严格意义的语义 Web
近乎天方夜谈,但其变体,如面向特定应用的小型语义 Web 却是可能的) ,提升信
息的质量与系统性,实现知识的有效组织与利用。
(3 )国家经济建设:建设与工程体系相配合的、以“软科学”为特征的非工
程体系,提供全面、强大的决策支持。
(4 )国家安全:敏感信息的准确检测与过滤(例如军事、政治敏感信息)。
目前基于IP 地址及基于关键词匹配的策略只能是权宜之计,防不胜防。
(5 )人民生活质量与文化素质的提高:网络的各种个性化服务及按需服务。
(6 )网络色情的围堵:有效制止其恶性泛滥(已成为网络上的首要公害)。
虽然要圆“基于语义的内容计算”之梦,人类还需要走非常漫长的路,但在这个
圆梦之路的不同阶段所产生的一些阶段性重要成果,仍足以促使信息技术发生深
刻变革及带动相关产业的升级。
由于自然语言文本占据了互联网的大半河山, 同时,在可预期的将来,对声音、
影像、图片的检索仍将严重依赖自然语言分析技术(正如近两年 Google 推出的图
象与视像搜索引擎所做的那样),语言计算的重要性也就不言而
您可能关注的文档
最近下载
- 2025湖南株洲市工会社会工作者招聘30人笔试备考试题及答案解析.docx VIP
- 2023考试软件评测师真题及答案完整版.docx VIP
- 机务基础维修执照考试资料系列 M11 .pdf VIP
- 患者跌倒、坠床等意外事件的防范制度、措施、报告制度.docx VIP
- 2025年湖南株洲市工会社会工作者招聘30人笔试备考试题及答案解析.docx VIP
- 教师资格考试初中学科知识与教学能力语文试卷及解答参考.docx VIP
- 部编版八年级道德与法治上册3.1《维护秩序》优质教案.doc
- 冷链医疗器械培训试题(含答案).docx VIP
- 2025湖南株洲市工会社会工作者招聘30人笔试备考题库及答案解析.docx VIP
- 乾坤木业业务流程诊断.ppt VIP
文档评论(0)