- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于XBRL自然语言语句形式化标注研究
基于XBRL自然语言语句形式化标注研究
【摘 要】 为了提高机器对自然语言的理解能力,以语义形式化为切入点,研究了基于可扩展商业报告语言(XBRL)的自然语言语句的形式化标注问题。研究表明,自然语言句子的语义表达模式灵活多样,其语义需要分别从词汇意义、语法意义、其他意义等方面加以理解; XBRL的技术体系结构具有可扩展性,通过扩充基础规范,重构分类标准,增加新元素,基于XBRL技术可对自然语言的语句进行形式化标记,进而提高机器对自然语言的理解能力。
【关键词】 自然语言语句; 形式化标注; XBRL
【中图分类号】 H102 【文献标识码】 A 【文章编号】 1004-5937(2017)24-0070-04
当今社会已进入大数据时代,大数据及其应用将会引起人类社会的又一次革命[1]。大数据具有容量大(Volume)、种类多(Variety)、流动速度高(Velocity)、真伪混杂性(Veracity)等特征,是使用常规的工具难以处理的数据集合[2]。之所以难以用常规的工具处理大数据,主要是因为大数据中含有大量的非结构化数据,而非结构化数据中相当大的一部分是来自于社交媒体的自然语言[3]。长期以来,人们试图让计算机等智能设备代替人类理解并处理自然语言,但实践证明,由于存在语言现象无限而可利用的?算资源有限的矛盾,自然语言是一种难以用机器理解的语言[4-5]。而语言标注是一种对语言数据进行识别、选择和归类的工作,既能将语言数据中隐藏的意义显式地表现出来,也能按照不同的使用需求对语言数据进行标准化处理,有助于将自然语言转换为易于机器理解的数据[6]。被誉为互联网女皇的玛丽?艾克在《2014年互联网趋势报告》中提出,从2014年开始,应用大数据解决各类问题的趋势将显现,但现有的通用数据中有34%的信息具备研究价值,其中只有7%的数据被做了标注,被分析过的只有1%[7]。由此可见,为了便于对大数据进行分析使用,数据标注具有重要的作用。XBRL是适用于商业报告领域的一种国际化的标注语言,目前已在多个国家的金融监管、财政监管和税务监管领域得到应用[8]。如果能用XBRL标注自然语言,这将为提高其在机器智能领域中的可用性创造非常有利的条件。本文的贡献在于以语义形式化为突破点,提出了改进自然语言语句可用性的方法,并用扩展的XBRL作为标记语言,将有助于推动自然语言在计算机智能领域中的应用。
一、自然语言语句的语义组成
自然语言主要由句子构成。语言学研究认为,语义是语言的意义内容,它是客观现实地在人的意识中的反映。鉴于自然语言语句的语序灵活,依据传统的依存树投射现象原理不能解决某些句式的语义理解问题[9-10],本文拟从语义分解与组合的视角出发研究自然语言语句的形式化标注问题。
本文的研究前提是句子的基本语义可分为词汇意义、语法意义和其他意义三大类,这三大类语义组合起来可以完整地反映句子的含义;同时总可以找到不同的标注元素组合来表示各种自然语言语句的语义,标注方式(标注元素及其组合)与语句语义可以实现一一对应的关系。
(一)词汇意义
词汇是自然语言的建筑材料,由词和熟语组成[11]。词是音义结合的、语法上定型的、能独立运用的最小语言单位。熟语作为常用固定组合,语音和谐,语义结合紧密,是语言中独立运用的词汇单位。无论是词还是熟语,都有一定的意义,统称为词汇意义。词汇意义是对客观现实抽象、概括的反映,一个词汇意义概括一类现象。
(二)语法意义
语法是语言的组织规律,是人类思维长期思考的结果。语法用来组织语言中的词汇单位,是语言的“建筑法”。语法意义是指用词造句时产生的词与词之间的关系[12],包括三种基本类型:(1)语法范畴意义,如性、数、格、时、人称、体、态等用一定的语法形式①表达的各种语言中共有的意义;(2)语法功能意义,如主语、谓语、定语等句子成分意义;(3)句法结构意义,如陈述句、疑问句、祈使句等句型意义以及变式句、省略句等句型转换意义。
(三)其他意义
其他意义是指除了词语意义和语法意义以外,一个语句可能具有的其他语义,包括修辞意义、语境意义等。修辞意义是指通过采用特别的语言手段而使句子所体现出的感情色彩、语体色彩、联想色彩等[13];其中感情色彩反映人们对客观现实的主观评价和态度,语体色彩是指语言使用随环境而异产生出的书卷语体、谈话语体、艺术语体和科学语体等一系列使用语言材料的特点,联想色彩是从词汇意义的联想而产生的预示或者氛围的语言使用技巧。语境意义包括上下文意义和社会文化意义两种;上下文意义是指一些语言单位在具体的言语环境下所具有的特别意义,社会文化意义则指一些语言单位的含义与社会文化背景有关。语境意义在使用语言时产生,附着在语言材料之上,受言语环境制
您可能关注的文档
最近下载
- 农业合作社全套报表(已设公式)--资产负债表-盈余及盈余分配表-成员权益变动表-现金流量表.xls VIP
- C语言程序设计PPT电子课件教案-04_循环语句嵌套及应用.ppt VIP
- 财务新纪元:现状与展望-探索财务工作的挑战与未来.pptx
- GB50496-2018 大体积混凝土施工标准.pdf VIP
- ZW8100喷水织机使用说明书2.pdf
- 冬季极端天气安全知识培训课件.pptx
- 整理bpmfdtnl单韵母拼读.doc VIP
- 南京市总工会2025年公开招聘笔试题(含答案)(DOC).doc VIP
- 中国国家标准 GB/T 42588-2023系统与软件工程 功能规模测量 NESMA方法.pdf
- 人教版初中必背古诗文.doc VIP
原创力文档


文档评论(0)