面向裁判文书的中文词性标注方法研究与实现.docVIP

  • 8
  • 0
  • 约2.61万字
  • 约 37页
  • 2020-09-18 发布于江苏
  • 举报

面向裁判文书的中文词性标注方法研究与实现.doc

经典专科、本科、硕博、研究生、期刊毕业论文 仅供参考 精心整理 仅供参考 勿用作商业用途 目 录 TOC \o 1-3 \h \z \u 摘 要 1 Abstract 2 前 言 3 第一章 绪 论 4 1.1 研究背景及意义 4 1.2 本文的主要工作 4 1.3 本文的组织结构 5 第二章 词性标注方法概述 6 2.1 词性标注简介 6 2.2 词表示 6 2.2.1 独热向量 6 2.2.2 词嵌入 6 2.3 序列标注模型 9 2.3.1 循环神经网络 10 2.3.2 LSTM网络 11 2.3.3 双向LSTM网络 12 2.3.4 CRF网络 13 2.3.5 LSTM-CRF网络 16 2.3.6 双向LSTM-CRF网络 17 2.4 本章小结 18 第三章 语料库的建立 19 3.1 语料库的来源 19 3.2 宾州大学中文树库词性标注集 19 3.3 语料库基础信息 19 3.4 本章小结 21 第四章 词性标注实验 22 4.1 TensorFlow简介 22 4.2 词嵌入的学习 22 4.2.1 实验流程 23 4.2.2 实验结果与分析 24 4.3 利用序列标注模型进行词性标注 25 4.3.1 实验流程 25 4.3.2 实验结果与分析 28 4.4 本章小结 30 第五章 总结与展望 31 5.1 本文总结 31 5.2 后续工作展望 31 参考文献 33 致 谢 35 摘 要 近些年来,我国司法领域的信息化建设取得飞速发展。利用司法大数据,可以完成智慧法院的建设,实现智慧司法。而裁判文书作为司法大数据的重要组成部分,可以利用自然语言处理技术挖掘其中的价值。 本文实现了面向裁判文书的中文词性标注方法。词性标注是自然语言处理领域的一项基本任务,旨在为文本中的词加上合适的词性标记,可以为更复杂的任务提供词性信息。 具体实现过程中,我们利用了循环神经网络(RNN)、长短期记忆网络(LSTM)、双向长短期记忆网络(BI-LSTM)和带条件随机场的双向长短期记忆网络(BI-LSTM-CRF)这四种序列标注模型来完成词性的标注。实验结果表明,上述模型均可以很好地完成词性标注任务,而BI-LSTM-CRF是最佳的模型,拥有最高的词性标注准确率。 关键词:词性标注;裁判文书;序列标注模型;词嵌入;BI-LSTM-CRF Abstract In recent years, the information construction in the judicial field has been developing rapidly in China. By using judicial big data, we can complete the construction of the wise court and realize the wise justice. Judgment document is an important part of judicial big data, we can use Natural Language Processing technology to tap into its value. In this paper, we implement a Chinese part-of-speech tagging method for judgment document. Part-of-speech tagging is a basic task in the field of Natural Language Processing. It aims to add appropriate part-of-speech tags to the words in the text and to provide part-of-speech information for more complex tasks. In the specific implementation process, we use four sequence tagging models of Recurrent Neural Network (RNN), Long Short-Term Memory Network (LSTM), Bidirectional Long Short-Term Memory Network (BI-LSTM), an

文档评论(0)

1亿VIP精品文档

相关文档