多民族语言本体知识库构建技术文学论文.docVIP

下载本文档

0
0
约4.88千字
约 9页
2019-10-14 发布于四川
举报
版权申诉

多民族语言本体知识库构建技术文学论文.doc

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

多民族语言本体知识库构建技术文学论文　　　　摘要:语义本体是共享概念模型的显示的形式化规范说明,其目标是将杂乱无章的信息源转变为有序易用的知识源语义本体知识库的构建是文本自动处理的一个重要环节,跨语言信息检索、信息抽取、自动翻译等领域中都有广泛的应用该文旨在描述统一标准、统一接口的多民族语言本体知识库的创建思路,以及包含的若干问题,例如:多民族语言中共有概念的一般表示与各民族语言特有的事物表达方式的规律,基于词汇语义的、包括汉语、英语及少数民族语言在内的多民族语言语义本体的表示理论与方法等　　　　关键词:知识库;语义本体;词典扩充;本体学习　　　　1前言　　　　我国是一个统一的多民族国家,55个少数民族中的53个民族都有自己的语言文字这些语言文字与本民族生存发展息息相关年国务院发表《中国的民族政策与各民族共同繁荣发展》白皮书中指出:“为了使少数民族群众共享信息化时代的成果,国家采取各种措施促进少数民族语言文字规范化、标准化和信息处理工作的健康发展”本体(Ontology)[1]是对共享概念的正规、明确的表述本体始于哲学概念,90年代初被引入人工智能后,作为一种能在语义和知识层面上描述信息系统的概念模型建模工具[2] 　　　　基于语义的本体库是实现跨语言信息检索、信息抽取、自动翻译等智能信息处理应用的重要基础,是智能文本信息处理的重要环节为人们所熟知的本体库中文《知网》HowNet[3],是一个较为完整的以语言知识为基础的中文本体知识库目前,《知网》已成为许多自然语言智能处理系统的基础资源　　　　本体构建需要描述语言共性和个性信息大量的语言研究说明,不同语言除具有个性差异外,还有共性因素语言共性研究认为,语言间存在某种共同的普遍规律,称为“普遍语法”为蒙、藏、维、哈、朝等民族语言以及汉语、英语构建统一标准的本体库,对于多民族语言智能信息处理应用将起到积极地推动作用　　　　目前,多民族语言,除汉语外,均缺乏或没有本体知识库建设进行统一标准和接口的多民族语言语义本体知识库的创建,意义主要表现在:(1)从技术方面看,将促进民族语言信息处理(EthnicLanguageProcessing)技术的发展,探索出一套把被充分研究的语言的处理技术转移到被较少研究的语言上移植方案,使自然语言处理(NaturalLanguageProcessing)技术的应用更加广泛　　　　(2)从科技发展方面看,本项目实施为多民族语言的智能信息处理应用提供重要的基础支撑　　　　(3)从社会价值方面看,通过多民族语言信息技术服务于多民族的信息沟通和交流,将增强民族地区网络信息安全,有利于促进民族团结、构建多民族和谐社会　　　　本文首先介绍了多民族语义本体库的构建思路,创建方法,详细描述多民族语言知识本体库包含内容介绍多民族语言共性知识库中词汇语义知识的表示和抽取,各民族语言特有语法知识的表示和抽取等技术　　　　2相关工作　　　　20世纪90年代初期,国际计算机界举行了多次关于本体的专题研讨会,本体成为包括知识工程、自然语言处理和知识表示在内的诸多人工智能研究团体的热门课题,其主要原因在于本体使人与人、人与机器、机器与机器之间的交流建立在共识知识的基础上目前中英文自然语言处理领域,已经有很多语义本体的研究成果,其中最突出的是WordNet和HowNet 　　　　英文本体WordNet[4]的词汇包括名词、动词、形容词、副词和功能词每个词(更确切地说是词的一条意项)是一个网络节点节点之间通过“同义关系”、“反义关系”、“上位关系”、“下位关系”、“部分—整体关系”、“形态关系”等联系在一起目前,WordNet已经分别建立了名词、动词、形容词和副词的四个相互独立的语义网络,包括约十万多个词项　　　　中文本体HowNet[3]是揭示概念与概念之间以及概念所具有属性之间的关系为基本内容的常识知识库,从1996年研发至今,已有汉语词项96744条,多家科研单位研发基于HowNet知识表示的信息处理技术但目前,查新还没有查到民族语言信息处理研究中,关于语义本体表示层面的相关研究内容基于语义的本体知识库在文本处理、信息抽取、基于文本的数据挖掘、自动翻译中都有广泛的应用,合适的本体知识库将成为文本自动处理中的一个重要环节　　　　总结多民族语言中共有概念的一般表示与各民族语言特有的事物表达方式的规律,发现各民族语言之间的异同;研究和实现基于词汇语义的、包括汉语、英语、及多种少数民族语言在内的多民族语言语义本体的表示理论与方法,构建统一标准、统一接口的多语言语义概念本体知识库,将会为多民族语言的智能信息处理应用提供重要的基础支撑,加快民族语言信息处理的进程　　　　3多民族语言知识库构建