- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文摘要相比于普通的机器学习算法,结构化机器学习可以利用结构信息达到更好
中文摘要
相比于普通的机器学习算法,结构化机器学习可以利用结构信息达到更好 的效果,但其时间复杂度要高很多,虽然有快速的近似解法,但精度的损失一定 程度上抵消了结构信息带来的好处,因此研究快速精确的结构化机器学习算法 成了一个重要的课题。
本文中,我们对结构化机器学习中的推断算法以及特征抽取两个重要环节进 行改进。首先,我们针对序列标注问题,基于许多实际应用中高阶特征信息的稀 疏性特点,提出了稀疏高阶的条件随机场模型和一种新的快速精确的推断算法, 它可以同时处理局部特征和稀疏的高阶特征。由于稀疏性的存在,这种新的推断 算法是十分高效的。在手写体识别任务上,我们采用词缀特征作为高阶特征,稀 疏高阶的条件随机场模型达到了所有公开的实验结果中最高的精度。在中文组 织机构名识别任务上,我们将人工抽取的规则转化为高阶特征,并取得了微软亚 洲研究院数据集上第二名的成绩。这两个实验表明,在特征集相同的情况下,稀 疏高阶的条件随机场模型明显优于其他的方法。
其次,我们提出了一种新的特征字符串索引结构以加速特征抽取,从而缩短 解码时间。现在许多结构化机器学习方法采用模板生成数以百万千万的特征。复 杂的模板可以产生大量复杂的特征,从而提高了精度,但却需要更多特征抽取的 时间,大大影响了解码速度。为此,我们提出了两维的Trie结构,该结构可以利用 模板之间的相互关系提高特征抽取的速度:一个模板生成的特征字符串是它的 扩展模板生成的特征字符串的前缀,因此前一个特征字符串的索引号可以用来 检索后一个特征字符串,从而节约了时间。我们将这种新的数据结构用在基于图 模型的依存句法分析的任务上。在中文宾州树库上的实验表明,两维Trie的特征 抽取速度是传统Trie的5倍,整个句法分析的解码速度是后者的4.3倍。
中图分类号:TPl81 关键词:结构化机器学习、条件随机场、稀疏高阶的条件随机场模型、两
维Trie结构、序列标注、依存句法分析
ⅥII
Abst
Abst ract
Structured learning model owe a great part of their Success to the ability in using structured information.However,these methods are more time consuming than non-structured learning model.Though approximate algorithms reduce the
computational complexity,they degrade the accuracy to some extent.Therefore, exploring fast extract algorithms has important role in structured learning.
In this paper,we improve two aspects of structured learning:inference and feature extraction.First,for sequence labeling tasks,we proposed sparse higher order Conditional Random Fields(SHO.CRFs)based on the characteristics of sparseness of higher order features in many real applications,together with a novel extract tractable inference algorithm which is able to deal with local and sparse higher order features.SHO-CRFs are practically very efficient due to fea-
ture sparseness. In optical character recognition task,we use word affixes舔
higher order features,SHO—CRFs achieve the highest reported accuracy.In Chi- nese organization name recognition task,we achieve the second highest F1 score on Microsoft Research Asia corpus.Both exper
您可能关注的文档
- 扩展集装箱式活动房非线性静力分析-结构工程专业毕业论文.docx
- 宽带OFDM系统中的同步技术研究与FPGA实现 信号与信息处理专业毕业论文.docx
- 利用重、磁资料研究盘古山地区断裂构造及花岗岩体分布-地球探测与信息技术专业毕业论文.docx
- 锂离子电池高容量富锂层状正极材料制备与包覆改性研究-材料学专业毕业论文.docx
- 矿物掺合料对混凝土力学性能及抗氯离子渗透性能研究-水利工程专业毕业论文.docx
- 商用地毯包装中切机出毯至整理装箱段控制系统设计-机械工程专业毕业论文.docx
- 老年IgA肾病患者临床病理特点及预后的配对研究-内科学(肾脏病学)专业毕业论文.docx
- 髋表面置换术后外周血金属离子浓度的测定及相关因素分析-临床医学;外科学(骨外科)专业毕业论文.docx
- 磷钨酸和Ni2O3催化炭化聚丙烯及其阻燃性能的研究-化学工程专业毕业论文.docx
- 利用三亲本复合杂交群体构建陆地棉遗传连锁图谱与纤维品质QTL定位-作物遗传育种专业毕业论文.docx
- 跨文化视角下度假酒店顾客欣喜影响因素的研究-旅游管理专业毕业论文.docx
- 商业银行信息化投资决策的期权模型-管理科学与工程专业毕业论文.docx
- 跨国并购的新制度经济学分析-世界经济专业毕业论文.docx
- 快凝结合挤压制备镁合金及其组织与力学性能-材料物理与化学专业毕业论文.docx
- 跨国并购的新制度经济学研究-产业经济学专业毕业论文.docx
- 莲原花青素对皮肤的保护作用及其分子机制研究-农产品加工及贮藏工作专业毕业论文.docx
- 尚义20MW光伏电站备件库存优化研究-物流工程专业毕业论文.docx
- 乐金飞利浦曙光电子有限公司节能战略研究-工商管理专业毕业论文.docx
- 路堤荷载下CFG桩复合地基的沉降研究及设计方法探讨-岩土工程专业毕业论文.docx
- 山水画中的“自性”-艺术专业毕业论文.docx
文档评论(0)