协同智能计算语言数据库的设计方法.docVIP

协同智能计算语言数据库的设计方法.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
说 明  书 协同智能计算语言数据库的设计方法 技术领域 本发明属于语言信息处理技术领域,进一步是协同智能计算语言数据库的设计方法。 背景技术 2000年5月31日申报的“一种知识信息数据处理方法与产品(发明专利申请号001093800公开号1274895A)”和稍微晚些时候发表的“融智学(新范式)”(系统科学之窗论文专区),虽然定义并列举了文化基因的子全域与超子域及其进化阶梯的各个层次形式(以下简称:进阶层式),但是,却没有具体展示并详细分析基因文本元素及其组合形式,例如,没有说明汉语与英语在这方面是怎样区分的。 后来,我发现北京大学中文系教授徐通锵先生提出的“字本位”观点很符合汉语文化基因进化发展的特点。于是,我与徐教授约定:2000年6月3日,在纪念《马氏文通》发表100周年学术交流会上见面。这之后,从他给我的《语言论——语义型语言的结构原理和研究方法》(东北师范大学出版社)一书中,我了解到徐先生的“字、辞、块、读、句”对明确地区分汉语的文化基因文本元素组合——超子域的几个进阶层式。遗憾的是:那一段时间,徐教授虽然认为我的文章“提出了一些重大的问题”,但是,“因为我们研究的领域不同??”,故无法直接给予支持。后来,我认真读了徐通锵教授给我的《语言学基础理论》(北京大学出版社)、俞士汶教授给我的《计算语言学论文集(4)》(北京大学计算语言研究所)和张全教授给我的《概念层次网络(HNC)》(清华大学出版社)等书的有关论文,对比徐通锵、陆俭明和黄曾阳三位学者的观点,还特别调查了近期国际国内自然语言理解及中文信息处理领域的有关情况,因此,我认为有必要具体地公开我所考虑的如何确立在文化基因工程中对语言发展进阶层式进行划分的标准以及与之相应的协同智能计算语言数据库的构造。 众所周知,由于目前通用计算机中采用的二进制数表示字母、数字、符号以及控制符的美国标准信息交换码,即ASCII,可以说在根本上还不可能直接构造出基于汉语文化的计算机芯片、操作系统和编程语言。同时,由于美国标准信息交换码不表示汉字,所以,建立在ASCII基础之上的汉字信息交换码(GB2312)、中文内码扩展标准(GBK)和基于多八位编码字符集标准(ISO10646)的国家标准(GB13000.1)的中文信息处理的效率,都远不如直接采用英语处理知识信息数据的效率高。 由此可见,现有技术,对计算机处理汉语而言,不仅不是最佳的,而且,还存在根本缺陷或不足。 发明内容 本发明的目的在于提供协同智能计算语言数据库的设计方法,以便于自然语言理解及中文信息处理领域的开发人员设计出效率更高的标准化共享语言知识数据库,也便于用户借助它定制适合自己的个性化独享语言知识数据库,同时,还为设计中的基于文化基因的协同智能计算系统提供便于处理多学科知识信息数据的基础加工平台。 本发明的目的是通过下述技术方案实现的,即: 协同智能计算语言数据库的设计方法,是对“一种知识信息数据处理方法及产品”发明专利说明书和其中公开不充分一项具体技术的改进措施,即:通过建立语言文字的子全域和超子域进阶层式的一系列基础表,构成人机协同对自然语言进行定性分析和定量分析的高效工具平台,它涉及现行的数据库和数据仓库技术以及相应的计算机软、硬件技术产品的直接应用,其特征在于: 首先,把由汉语基本笔画或英语基本字母构成的基础表中的这种元素集合,明确地定义为子全域,分表序号为0,以此作为计量语言文字的基准参照系,同时,因其中的笔画或字母的个数可穷举或实现完全归纳,故在此被明确地定义为基因文本元素,以便计算机复用时进行自动计量; 其次,把语言发展进阶层式各一览表构成的各相应基础表中组合部件的集合,明确地定义为超子域,分表序号为:1、2、3、4、5、6、7、8、9、10、11、12,以此作为计量语言文字的应对参照系,同时,因其中的具体组合部件的个数不可穷举或只能实现相对完全归纳,故在此被明确地定义为基因文本元素组合部件,以便计算机复用时进行自动计量; 最后,在全域数码(a+bi&…)构成的总参照系中,明确地给出各个子全域和超子域各进阶层式一览表的总的统一的通用语言的基础表的id的特定存放序位——由国际及国家的标准化组织认同,在此之前先由用户通过定制各分表的形式由使用单位或有关机构协商选定。 本发明的有益效果在于:既能帮助自然语言理解及中文信息处理领域的开发人员设计出更高效率的标准化共享语言知识数据库,又能帮助普通的广大用户更容易地定制适合自己的个性化独享语言知识数据库,还能为设计中基于文化基因的协同智能计算系统提供一种高效处理多学科知识信息数据的基础加工平台,并且能显著地提高人机协同对语言文字进行定性分析和定量分析的工作效率。 附图说明 图表是协同智能计算语言数据库的设计方案一览表。它

文档评论(0)

tcpe + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档