正则文法在数据分析中的应用.docVIP

下载本文档

10
0
约4.27千字
约 8页
2018-09-08 发布于湖北
举报
版权申诉

正则文法在数据分析中的应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

正则文法在数据分析中的应用　　摘要：以用词严谨、规范性极强的刑事判决书作为文本分析的对象，提取文书中的量刑情节语义。提出了一种异于依存句法分析的方法，该方法将句子抽象成若干元素，把这些元素的组成称之为句型结构。识别语义的过程就是识别结构类型，根据具体的结构类型分别提取其语义。该识别方法中，正则文法起到了关键作用，即采用正则表达式识别元素，使用正则文法定义结构类型。虽然该方法目前只应用在刑事判决书上，但也为类似问题的解决提供了思路。　　关键词：数据分析；正则文法；正则表达式；句型　　中图分类号：TP311 文献标志码：A 文章编号：1006-8228（2015）10-33-03 　　Abstract： Taking the criminal judgment， which is carefully worded and strong normative， as a text analysis object， extracts the sentencing circumstances semantic from it. This paper proposes a method， in which a sentence is abstracted into several elements and the composition of the elements is called sentence structure， it is different from the dependency parsing. The process of recognizing semantics is to identify the structure type， according to the specific type of structure to extract the semantics respectively. In this recognition method， the regular grammar plays a key role that is to use regular expressions to identify elements and use regular grammar to define the structure type. Although this method is only used in the criminal judgment， it also provides a way to solve the similar problem. 　　Key words： data analysis； regular grammar； regular expression； sentential form 　　0 引言　　随着办公电子化的全面实现，各政府机关单位每年都会产生大量不同类型的电子文件。提供这些文件的内容搜索服务，仅仅是数据信息的基本利用。　　在这些电子文件中，如果有某类文件用词规范、结构性强，那么在对这类文件进行更深入的信息挖掘与分析后，或许能得到一些有用的结论。　　1 数据信息与句法分析　　就数据信息而言，大致分为结构化信息和文本信息。结构化信息一般来自于数据库，信息内容有严格的格式约束[1]；而文本信息根据结构不同，可分为自由文本和半结构化文本。自由文本由于格式随意和内容多样，不易归纳；半结构化文本介于结构化信息和自由文本之间，有一定的格式要求，但因内容不同而又有一定的不确定性。可将有一定格式的文本拆分成语句块后再做句法分析。　　所谓句法分析，就是识别该句是否为某文法的一个句型[2]。用文法的规则为该句子构造结构单元来加以识别，确认它是否为该文法的一个句型。　　在句法分析中主要采用两类文法体系：短语结构语法和依存结构语法。短语结构语法采用“短语结构”或“直接成分”作为句法结构分析的对象；依存语法（也称从属关系语法）则采用依存结构作为其句法结构分析的对象[3]，通过分析词素之间的依存关系确定其句法结构。　　乔姆斯基（Chomsky）分层体系将短语结构语法类型分为四类：0型文法--短语结构文法（PSG）；1型文法--上下文有关文法（CSG）；2型文法--上下文无关文法（CFG）；3型文法--正则文法（RG）。四类文法的关系为RG?CFG?CSG?PSG。　　2型上下文无关文法在自然语言的句法分析上应用广泛，当把统计方法引入上下文无关语法规则系统[4]后，有效提高了标记精确率和标记召回率。这种引入了统计方法的2型文法被称为概率上下文无关文法（PCFG），著名的斯坦福大学中文文法分析器的移进-规约解析器（Shift-Reduce P