把智能中文信息处理迅速推向概念语义层级.pdfVIP

把智能中文信息处理迅速推向概念语义层级.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第16届全国计算机信息管理学术研讨会论文集 SIGMODInt.Conf.onManagementofData,Boston,MA,1984,pp.47-57. [5JLinK,JagadishHV,FaloutsosC:TheTV-tree:AnIndexStructureforHigh- DimensionalData,VLDBJournal,Vol.3,1995,pp.517-542. [61StefanBerchtold,ChristianB6hm,DanielA.Keim ,Hans-PeterKriegeland XiaoweiXu:ptimalMultidimensionalQueryProcessingUsingTreeStripingProc.2ndInt. Conf.onDataWarehousingandKnowledgeDiscovery(DaWaK),2000 [71Wai-chiuWongAdaWai-cheeFu:IncrementalDocumentClusteringforWebPage Classification [8] 伟强 高文 段立娟,Internet_,O_*fN0N 计算机科学2000Vol27N04 [91吴立德 罗航哉薛向阳:萝天多重御择戈今夕夕倪邃褶测涅,脸亲二计算机学报2000年11月 第23卷第11期 07把智能中文倍息处理迅速推向概念语义层级 上海交通大学计算机系 王永成 (上海市华山路1954号,200030) 【摘 要】中文信息处理,早已由字一级提升到词一级,于是分词,词性标注愈来愈热,但, 汉语有没有词?什么是词?汉语有没有词?什么是词?为什么要研究汉语分词?汉语如何分词? 什么是汉语词性?为什么要进行汉语词性标注?决定汉语词汇语义的因素有哪些?什么是概念? 汉语的概念与汉语词汇有什么关系?概念又是如何形成与理解的?汉语理解的标准是什么?人们 又是怎样理解汉语的?所有这些问题,作者都想刨根究底地作一番探讨.因为这是才巴中文信息处 理,把中文检索提高到一个新的层级的问题.作者在这里抛砖引玉,试图引发同行们的深刻思考。 【关健词】概念、自然语言 1.中文信息处理要不要分词、进行词性标注? 汉语中有没有词?众所周知:唐诗、宋词中的 “词”是指一种文体,而不是指一个语义单位。 虽然到明清时,也有人说 “虚辞”,如 “者”也称为 “词’,。但 “词”的概念并未完全形成。 什么是汉语中的词?有人说它对应于英文中的 “Word。但英语与汉语是二种完全不同的语 言。怎能照搬英语中的概念与做法?如果事事照搬,有人讲:“美国人称自己的餐具为三件 (刀、 义、匙)一套。那么,中国人应称自己的餐具是二根 (筷子)一套,还是一对 (筷子)一套呢?” 但是什么是汉语词?谁也说不清!据说:语言界曾为 “鸭蛋”是词,“鸡蛋”不是词而争吵不休。 为什么研究汉语分词?有人讲:“词是词义的最基本单位,要研究汉语语义,当然要首先研 究汉语分词。”有人甚至扬言: “要理解中文,就要首先突破中文的自动分词’,、“英文词间有自然的分隔,但中文没有,因 此,中文分词成了中文理解的拦路虎”、“要理解中文句子,除分词以外,还要研究中文词的词性 标注,研究中文句子的生成语法与结构”,这已是研究中文信息处理,特别是中文理解的当今大 1王永成 上海交通大学计算机系 上海华山路1954号200030 电话:(021)E- mail:ycwang@ 第 36臾共 331灭 第16届全国计算机信息管理学术研讨会论文集 多学者的常规思维。 词的定义搞不清,又如何分词?于是有人就搞了一个 “分词规范”。不讲其合理与否,究竟 有多少人欢迎?又有多少人能记得它?更不要说广泛应用于自然语言理解之中了。“词性标注”, 标个没完:“主谓宾分析”,愈分析愈糊涂。“台上坐着主席团’,,这里谁是主语、宾语和谓语?中 国人过去引以为荣的:“中国地大物博人口众多”,其中谓语又是什么?我曾问过好多认为 “不分 词就不能进行中文语义处理,不能进行语义理解,不能进行机器翻译”的分词专家;“你我对话, 你在理解我的讲话时,分词吗?!”谁也不敢爽然回答 “分词!” 既然人进行自然语言理解时,不一

文档评论(0)

whl005 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档