快速精确的结构化机器学习方法及研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
优秀毕业论文,完美PDF格式,可在线免费浏览全文和下载,支持复制编辑,可为大学生本专业本院系本科专科大专和研究生相关类学生提供毕业论文范文范例指导,也可为要代写发表职称论文提供参考!!!

中文摘要 相比于普通的机器学习算法,结构化机器学习可以利用结构信息达到更好 的效果,但其时间复杂度要高很多,虽然有快速的近似解法,但精度的损失一定 程度上抵消了结构信息带来的好处,因此研究快速精确的结构化机器学习算法 成了一个重要的课题。 本文中,我们对结构化机器学习中的推断算法以及特征抽取两个重要环节进 行改进。首先,我们针对序列标注问题,基于许多实际应用中高阶特征信息的稀 疏性特点,提出了稀疏高阶的条件随机场模型和一种新的快速精确的推断算法, 它可以同时处理局部特征和稀疏的高阶特征。由于稀疏性的存在,这种新的推断 算法是十分高效的。在手写体识别任务上,我们采用词缀特征作为高阶特征,稀 疏高阶的条件随机场模型达到了所有公开的实验结果中最高的精度。在中文组 织机构名识别任务上,我们将人工抽取的规则转化为高阶特征,并取得了微软亚 洲研究院数据集上第二名的成绩。这两个实验表明,在特征集相同的情况下,稀 疏高阶的条件随机场模型明显优于其他的方法。 其次,我们提出了一种新的特征字符串索引结构以加速特征抽取,从而缩短 解码时间。现在许多结构化机器学习方法采用模板生成数以百万千万的特征。复 杂的模板可以产生大量复杂的特征,从而提高了精度,但却需要更多特征抽取的 时间,大大影响了解码速度。为此,我们提出了两维的Trie结构,该结构可以利用 模板之间的相互关系提高特征抽取的速度:一个模板生成的特征字符串是它的 扩展模板生成的特征字符串的前缀,因此前一个特征字符串的索引号可以用来 检索后一个特征字符串,从而节约了时间。我们将这种新的数据结构用在基于图 模型的依存句法分析的任务上。在中文宾州树库上的实验表明,两维Trie的特征 抽取速度是传统Trie的5倍,整个句法分析的解码速度是后者的4.3倍。 中图分类号:TPl81 关键词:结构化机器学习、条件随机场、稀疏高阶的条件随机场模型、两 维Trie结构、序列标注、依存句法分析 ⅥII Abstract owea oftheirSuccesstothe in Structuredmodelgreatpart ability learning methodsaremoretime structured consuming using information.However,these thannon-structured reducethe algorithms learningmodel.Thoughapproximate the tosome degradeaccuracy extent.Therefore, computationalcomplexity,they fastextract has roleinstructured exploring algorithmsimportant learning. Inthis two ofstructured and paper,weimproveaspects learning:inference feature extraction.First,forsequencelabelingtasks,weproposedsparsehigher

文档评论(0)

sjatkmvor + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档