面向语言处理的大规模结构化学习理论和技术-语言计算与机器学习.pdfVIP

下载本文档

7
0
约1.91万字
约 13页
2017-09-03 发布于天津
举报
版权申诉

面向语言处理的大规模结构化学习理论和技术-语言计算与机器学习.pdf

1、本文档共13页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

面向语言处理的大规模结构化学习理论和技术-语言计算与机器学习

面向语言处理的大规模结构化学习理论和技术马树铭任宣丞孙栩北京大学计算语言学教育部重点实验室，北京 100871 {shumingma, renxc, xusun}@pku.edu.cn 摘要大规模结构化学习是语言处理中的一个重要问题。本文介绍了近年来针对大规模结构化学习的关键理论和重点技术。重要的传统模型有条件随机场，结构化感知器和概率化感知器，这些模型在速度和效果上各有优势。为了减少传统模型在大规模学习中的标注工作，隐变量模型被应用于大规模结构化学习中，用隐变量来代替精确的标注数据。近来，神经网络模型的广泛应用又减少了特征提取工作，进一步提高了大规模结构化学习的效果。最后，正则化模型，特别是结构正则化方法，可以大大降低模型过拟合的风险。 1 引言语言处理（Language Processing）是人工智能领域的重要组成部分。作为人机接口的核心技术之一，语言处理包括两个方面：语言理解和语言生成，前者为输入、后者为输出，两者协同作用于人与计算机的沟通，其意义不言而喻。结构化学习，是语言处理的重要解决手段之一。语言本身有着丰富而复杂的结构，划分、界定这些线性序列中隐含的结构长久一来都是语言学家研究分析的重点。如果语言处理任务能够清晰、准确地识别语言中的各种结构，比如短语结构、依存关系、语义角色关系等，对基于语言结构的理解和生成大有裨益。然而，语言的复杂性和多样性，大大增加了结构化学习的难度。为了适应语言的这一特点，使用大规模语料、运用大规模模型成为目前语言处理增强能力、提升效果难以跨越的关卡。大规模的结构化学习，在实践中确实带来了效果的明显提升，然而其过慢的学习速度，一定程度上制约了其在实际中的应用。大规模结构化学习目前的关涉主要有两点：一是提高学习速度，让使用更大规模数据、模型成为可能；二是，在可以接受的范围内尽量维持原有的效果提升。经过近几年的发展，大规模结构化学习形成了一套较为完整的理论、涌现出一批得到实际应用验证的技术。本文试图对现有的成果进行梳理，针对不同类别的模型以及大规模学习带来的过拟合问题介绍现有的解决方案。 2 传统模型解决结构化问题 2.1 条件随机场在传统的语言处理中 Lafferty et al.[1]提出的条件随机场（Conditional Random Fields, CRFs）模型占有重要地位，作为全局化的概率模型，其核心是最大化给定输入下正确输出的条件概率： 1 ( | ) , = exp⁡(∑ (,)) (,) ( ) , =∑exp⁡(∑ (′,)) ′ 其中 x 为输入序列、y 为输出序列、y’为所有可能输出序列、θ为模型参数（特征权重）、f 为特征模板势函数，Z 为归一化函数。 CRF 的学习方法一般是基于梯度的最大似然学习。由于 CRF 每次预测的是一个全局结构，而不是一个局部的标签；因而在预测的时候需要从输入根据模型参数搜索最优结构，该过程被称为解码过程，往往采用基于动态规划的维特比算法（Viterbi Algorithm），以避免枚举遍历的极高复杂度。 2.2 结构化感知器尽管如此， CRF 的训练效率依然较低。 Collins[2]提出的结构化感知器 (Structured Perceptron)算法（图1），在一定程度上解决 CRF 的训练速度问题；并在理论上保证，如果数据可分，该算法是收敛的。这一算法避免了 CRF 中的梯度计算，仅针对预测错误的