基于主动学习的中文问题分类数据集构建 .pdfVIP

基于主动学习的中文问题分类数据集构建 .pdf

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

基于主动学习的中文问题分类数据集构建

邱锡鹏;缪有栋;黄萱菁

【摘要】Thecurrentcorporaofquestionclassificationarerelativelysmall

anddifficulttomeetthepracticalneedsofQuestionAnsweringsystem,so

thatweuseactivelearningmethodstoconstructaChinesequestion

classificationdatasetandforquestionlabeling.Inaddition,weimprovethe

performanceoflabelingwithfeatureselection.Experimentalresultsshow

thatbyusingactivelearningwecanquicklyconvergeatthebestaccuracy

(85%)andbyusingmanualtaggingwecanhavesmallfeatureset

size.Theactivelearning-basedlabelingmethodachievedverygood

classificationperformancewithlessmanualannotationtagging,whichcan

significantlyimprovetheaccuracyofclassificationtosomedegree.%为解决

在开放领域问题回答问题中语料规模较小、难以满足问题分类训练需要的问题,用

主动学习方法来构建中文问题分类数据集.根据主动学习的方法进行中文问题类别

标注,并且通过主动式特征选择方法来提升性能.实验结果表明:在使用主动学习方

法时可以快速收敛到最佳准确率(85%),在使用人工标注特征下特征集明显的减

小.基于主动学习的标注方法在需要较小人工标注同时取得很好的分类性能,并且在

一定程度上还可以明显提高问题分类的准确率.

【期刊名称】《哈尔滨工业大学学报》

【年(卷),期】2012(044)005

【总页数】4页(P125-128)

【关键词】主动学习;Passive;Aggressive算法;特征选择;中文问题分类

【作者】邱锡鹏;缪有栋;黄萱菁

【作者单位】复旦大学计算机科学技术学院,上海201203;复旦大学计算机科学技

术学院,上海201203;复旦大学计算机科学技术学院,上海201203

【正文语种】中文

【中图分类】TP391

问题分类(QuestionClassification,QC)是开放领域问题回答(Question

Answering,QA)系统的基础和前提,问题分类准确性直接影响整个问答系统的性

能[1].在NIST举办的TRECQA评测会议推动下,问题分类的研究已取得很大

的进展.但目前大部分问题分类的研究还集中在英文语料上,在中文问题分类的研

究上,由于缺乏大规模的公开中文问题分类数据集,以及中英文的语言区别,因此

中文问题分类的性能还达不到英文的水平,这给中文问题回答研究带来了一个主要

瓶颈.因此,标注一个大规模的中文问题分类数据集是中文问答系统研究中非常急

迫的工作.

在语料标注中首先需要确定的是标注规范.目前问题分类语料主要是针对事实类问

题进行答案类型的标注,这样无法处理非事实类问题.本文根据问题类型和答案类

型两方面进行标注.问题类型是定义用户提问的意图,比如“事实类”、“评价

类”、“比较类”等.不同问题类型对应不同的处理方式以及答案生成策略.答案类

型是定义返回答案的类型,比如:“人物”、“歌名”等.答案类型和问答系统中的

其他模块一起配合工作,比如:命名实体识别、文档摘要和答案抽取等.因此根据

Z.Dong等[2]的实体分类体系来确定答案类型的标注规范.

在构建数据集的方法中,主动学习方法[3-4](ActiveLearning)已经被证明是一

种有效的减少标注工作量有效方法.主动学习是一种增量式的标注方法,每次只需

要人工标注当前模型分类中最不确定的样本,这样可以尽量避免标注重复样本,使

得标注样本的差异近可能大.要标注大规模的数据集,每次按顺序或随机选取样本

进行标注的代价相当大,而通过主动学习,每次选取对当前分类

文档评论(0)

136****6089 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档