- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
毕业设计开题报告
计算机科学与技术
基于SVM的汉语问句分类研究
一、选题的背景与意义
如今已是网络信息爆炸的时代,信息浩如烟海,人们对于网络的普遍需求是怎样快速寻找到自己想要的信息。尽管目前有比较知名的搜索引擎如百度、谷歌、雅虎等,但是都存在很多不足,而对于更加准确、高效、人性的智能检索系统的研发成为人们迫切的愿望。
自动问答(Question Answering,QA)系统,是指系统接受用户以自然语言形式描述的提问,随后能够从大量的数据中查找出并且为用户返回一个简洁、准确的答案。问答系统是目前自然语言处理领域一个非常热门的问题,它被认为是新一代智能检索系统。
不同的问答系统具有不同的结构,但大部分系统有着相同的框架,包括问句理解、信息检索和答案抽取三部分。问题理解虽然是问答系统的一个子过程,但却是第一个重要的模块,这直接影响到了信息检索和答案选取的正确率。因此,找出能够良好识别汉语问句的方法,将使中文自动问答系统朝着应用于多领域的普遍方向发展。
特征选取是问句分类中最关键的一部分,这与文本分类有很多相似的地方,但是除了提取问句中的词、词性、语块句法特征外,还需提取问句中一些隐含的语义特征。目前流行的方法有识别同义词、关联词,计算语义相似度和语义相关度,语义块和命名实体识别。
对于问句分类方法的研究,目前主要集中在两个方面,一是基于规则的方法,通过专家提取各种问句类型的疑问词与其他相关词组合的特征规则,通过规则来判定问句所属类型。另一种是通过统计的方法实现问句的分类,通过对真实的经过标注的问句语料进行统计学习,提取能表达各种问句类型的特征规则,建立学习模型,实现各种问句的类型识别。
二、研究的基本内容与拟解决的主要问题:
汉语问句分类目标是根据实际问句特征将其归为一定集合的汉语问句类型中的一种,本文的分类标准参考文献[9]中的问句分类体系,将汉语问句分成50多个类型,两个层次,第一层分为6个大类,每个大类下又分多个小类,具体见表1。
表1 问句分类体系
大类 小类 缩写 缩写 表达式 人物 特定人物 团体机构 人物描述 人物列举 其他 地点 星球 城市 国家 大陆 省 河流 湖泊 山脉 海洋 岛屿 其他 数量 编码 总数 价格 百分比 速度 温度 年龄 距离 重量 面积 范围 顺序 频率 其他 时间 日期 时间 时间范围 时间列举 其他 实体 动物 植物 食物 身体 事件 机械 交通工具 语言 宗教 货币 颜色 其他 描述 定义 描述 方式 原因 其他描述 需要解决的问题是:
特征选取
是问句分类中关键的一部分,和文本分类有许多类似的地方,但是问句中包含较少的词,所有又有不同。特征选取的方法有句法特征选取和语义特征选取。
问句分类算法
采用统计学的机器学习算法,如K近邻算法(KNN),简单贝叶斯(NB),决策树(DT),支持向量机(SVM)等等,实现对特征集的分类。
数据集
利用问句事件抽取器(CQEE)提取哈工大问题集和TREC免费问题集中的一部分,并根据表1的问句分类体系选择若干小类进行测试。
三、研究方法与技术路线
1、句法特征选取
词是句子的最基本的组成单位 ,一个句子是由多个词组成 ,词性是分析句子结构的基础 ,因此选择词和词性作为基本的特征空间. 词或词性特征的提取相对比较容易,采用中科院计算所开发的分词和词性标注工具 ICTCLAS对问句进行词切分和词性标注 ,其中词性标注按照北大的词性标注集规范进行。
2、用支持向量机(SVM)进行统计分类
SVM分类器中的特征都是数字型,为此必须对特征进行编码,将其转化为数字型,并提取相应编码项的特征值,作为LIBSVM的训练特征向量输入. 其向量输入格式为:〈label〉〈index1〉:〈value1〉〈index2〉:〈value2〉??〈indexn〉:
〈valuen〉,其中label为问句相应类别的编号,〈index〉是问句中特征定义的编号,〈value〉为其对应的特征项的特征值. 对于每一个问句,要求提取出一个上面表达形式的特征向量用于训练和测试. 问句分类器选取了语义相似度的特征,因此对该特征进行编码,即确定〈index〉项序号和具体特征之间的对应关系. 特征编码要借助于问句类别表、FAQ标准问句库、中科院词表。
特征编码确定后,对于每一个问句只需确定这个特征编号( Index)在问句中对应的特征值(Value) ,对选取特征只取两个值(0或1).。对问句与标准问句库进行相似度计算后,判断该问句是否包含相关特征项. 若问句中出现该对应编码的特征,则对应的特征值为1,否则为0。然后对每一个训练和测试问句构建出一个表达问句的SVM特征向量。按照上述方式构造分类器的问句特征维数很大,SVM能够处理高维特征,但是训练时间较长。
研究的总体安排与进度:
您可能关注的文档
- 基于Ethernet寻址方式的多路激光器系统远程控制技术的研究【毕业论文】.doc
- 基于RS-485通信的主从式激光器控制系统的设计【毕业论文】.doc
- 基于人工生命模型的虚拟植物生长动画初探【毕业论文】.doc
- 基于双树轮廓波的图像降噪研究【毕业论文】.doc
- 简易等效采样数字示波器的设计与实现【毕业论文】.doc
- 人工温湿度环境模拟室构建研究【毕业论文】.doc
- 深度视频预处理方法的设计和实现【毕业论文】.doc
- 双费率数字电度表设计【毕业论文】.doc
- 透明导电薄膜用Sb掺杂SnO2光电特性研究【毕业论文】.doc
- 微型代步工具概念设计【毕业论文】.doc
- 基于TMS320DM6437DSP的运动目标检测系统【开题报告+文献综述+毕业设计】.Doc
- 基于Web的车辆管理系统【开题报告+文献综述+毕业设计】.Doc
- 基于WEB的非学业因素在线测评系统【开题报告+文献综述+毕业设计】.Doc
- 基于IEEE802.16d的WiMAX接收机物理层的Matlab仿真的实现【开题报告+文献综述+毕业设计】.doc
- 基于Web的签章控件开发【开题报告+文献综述+毕业设计】.Doc
- 基于Web应用的电子印章制作控件【开题报告+文献综述+毕业设计】.Doc
- 基于包装器的Web信息抽取算法实现【开题报告+文献综述+毕业设计】.Doc
- 基于单片机的无线点菜系统【开题报告+文献综述+毕业设计】.Doc
- 基于关键词的网页检索和排序【开题报告+文献综述+毕业设计】.Doc
- 基于计算机网络的信号误差处理演示系统研制【开题报告+文献综述+毕业设计】.Doc
最近下载
- 装表接电实训 低压三相四线电能计量装置配装 课件.pptx VIP
- 3L.01.01 ×× U9 ERP项目-系统上线切换方案.docx VIP
- 北京市工作居住证申请表(标准文档).doc VIP
- 无人机综合管控平台系统.docx VIP
- 2025秋人教版道法八年级上册《第三单元 勇担社会责任》大单元整体教学设计[2022课标].pdf
- 语文二年级上册电子课本.pdf VIP
- T_CCUA 048-2025 政务信息系统运行维护费用定额测算方法.pdf VIP
- 消防水池、人防有限空间专项施工方案全.docx VIP
- 农旅商业计划书1.docx VIP
- DNA03-数字水准仪说明书.pdf VIP
文档评论(0)