面向裁判文书的中文词性标注方法研究与实现.docVIP

下载本文档

35
0
约1.17万字
约 21页
2021-01-06 发布于北京
举报
版权申诉

面向裁判文书的中文词性标注方法研究与实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

面向裁判文书的中文词性标注方法研究与实现摘要：近些年来，我国司法领域的信息化建设取得飞速发展。利用司法大数据，可以完成智慧法院的建设，实现智慧司法。而裁判文书作为司法大数据的重要组成部分，可以利用自然语言处理技术挖掘其中的价值。本文实现了面向裁判文书的中文词性标注方法。词性标注是自然语言处理领域的一项基本任务，旨在为文本中的词加上合适的词性标记，可以为更复杂的任务提供词性信息。具体实现过程中，我们利用了循环神经网络(RNN)、长短期记忆网络(LSTM)、双向长短期记忆网络(BI-LSTM)和带条件随机场的双向长短期记忆网络(BI-LSTM-CRF)这四种序列标注模型来完成词性的标注。实验结果表明，上述模型均可以很好地完成词性标注任务，而BI-LSTM-CRF是最佳的模型，拥有最高的词性标注准确率。关键词：词性标注;裁判文书;序列标注模型;词嵌入;BI-LSTM-CRF 前言近些年来，我国司法领域的信息化建设取得飞速发展，最高人民法院已经搭建起了司法大数据管理和服务平台，初步实现了数据的收集、保存、管理[1]。但对数据的分析加工，还处在初级阶段，尚未完全挖掘出司法大数据的价值，这也是目前重点研究的对象。裁判文书记载了人民法院对案件的审理过程和结果，是司法大数据中的重要组成部分。运用自然语言处理技术分析裁判文书，可以帮助司法人员提升业务能力和审判效率[2]。例如，当法官审判案件时，可以精确推送相似案例，为法官判案提供参考。甚至可以根据当事人的案情描述，自动生成判决结果与裁判文书，让当事人对判决结果有一定的预期，减少其上诉上访，维护社会和谐稳定。词性标注作为自然语言处理领域的一项基本任务，可以为更复杂的任务提供词性信息，帮助解决一些问题。例如，利用词性信息完成语义消歧，设计分别作为名词和动词时，表达的含义不同，在拥有词性信息后，便可以区分其不同含义。如果可以完成对裁判文书的自动词性标注，势必为未来更加复杂的任务提供便利，打下坚实的基础。本文主要介绍了面向裁判文书的中文词性标注方法的实现，针对从裁判文书网上下载的裁判文书，研究了如何为其完成自动词性标注的问题。本文完成的主要任务如下： (1)从裁判文书网上选取并下载了100篇裁判文书。 (2)根据美国宾州大学中文树库词性标注集，对裁判文书进行手工中文分词和词性标注，并将其作为语料库。 (3)利用Skip-gram模型，学习语料库的词嵌入向量。 (4)利用序列标注模型，完成对裁判文书的自动词性标注，并针对词性标注的结果，分析了各序列标注模型的优缺点。第一章绪论本章首先介绍了面向裁判文书的中文词性标注方法的研究背景和意义，其次简单介绍了本文所做的主要工作，最后总结了本文的组织结构。 1.1 研究背景及意义近些年来，我国司法领域的信息化建设取得飞速发展。为了建设智慧法院，实现智慧司法，首先需要获取大量的数据，即司法大数据。目前，最高人民法院已经搭建起了司法大数据管理和服务平台，初步实现了数据的收集、保存、管理[1]。但是，如果仅仅获取数据，而不对数据进行分析加工，那么隐藏在数据中的经验信息将无法被挖掘。因此，对司法大数据进行分析加工，挖掘出它的价值，是目前重点研究的对象。裁判文书记载了人民法院对案件的审理过程和结果，是司法大数据中的重要组成部分。由于裁判文书由文字组成，我们可以运用自然语言处理技术来分析裁判文书，构建一些智慧辅助工具，来帮助司法人员提升业务能力和审判效率[2]。例如，当法官审判案件时，可以精确推送相似案例，为法官判案提供参考。甚至可以根据当事人的案情描述，自动生成判决结果与裁判文书，让当事人对判决结果有一定的预期，减少其上诉上访，维护社会和谐稳定。在自然语言处理领域中，词性标注是一项基本任务，它可以为更复杂的任务提供词性信息，帮助解决一些问题。例如，利用词性信息完成语义消歧，设计分别作为名词和动词时，表达的含义不同，在拥有词性信息后，便可以区分其不同含义。如果可以完成对裁判文书的自动词性标注，势必为未来更加复杂的任务提供便利，打下坚实的基础。 1.2 本文的主要工作本文主要介绍了面向裁判文书的中文词性标注方法的实现，针对从裁判文书网上下载的裁判文书，研究了如何为其完成自动词性标注的问题。本文完成的主要任务如下： (1)从裁判文书网上选取并下载了100篇裁判文书。 (2)语料库的构建。手工对裁判文书进行了中文分词和词性标注，遵循的标准为美国宾州大学中文树库(Penn Chinese Treebank)词性标注集。 (3)将语料库中的所