基于自身特征的短文本分类研究-软件工程专业论文.docxVIP

基于自身特征的短文本分类研究-软件工程专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
合肥工业大学本论文经答辩委员会全体委员审查,确认符合合肥工业大 合肥工业大学 本论文经答辩委员会全体委员审查,确认符合合肥工业大 学学历硕士学位论文质量要求。 答辩委员会签名(工作单位、职称、姓名) 1 主席: 七珐驴引 中国科学技术大学教授 委员: 耆嘞 安徽大学 教授 J 合肥工业大学 教授 钾钐I 合肥工业大学 副教授 砀A专洲 合肥工业大学 副教授 l 翮:吲锄司 万方数据 学位论文独创性声明本人郑重声明:所呈交的学位论文是本人在导师指导下进行独立研究工作所 学位论文独创性声明 本人郑重声明:所呈交的学位论文是本人在导师指导下进行独立研究工作所 取得的成果。据我所知,除了文中特别加以标注和致谢的内容外,论文中不包含 其他人己经发表或撰写过的研究成果,也不包含为获得合肥工业大学 或其 他教育机构的学位或证书而使用过的材料。对本文成果做出贡献的个人和集体, 本人己在论文中作了明确的说明,并表示谢意。 学位论文中表达的观点纯属作者本人观点,与合肥工业大学无关。 学位论文作者签名:前砀 签名日期.加f6年争月” 学位论文版权使用授权书 本学位论文作者完全了解 金胆王些太堂 有关保留、使用学位论文的规 定,即:除保密期内的涉密学位论文外,学校有权保存并向国家有关部门或机构 送交论文的复印件和电子光盘,允许论文被查阅或借阅。本人授权合肥工业大 堂一可以将本学位论文的全部或部分内容编入有关数据库,允许采用影印、缩印 或扫描等复制手段保存、汇编学位论文。 (保密的学位论文在解密后适用本授权书) n 学位论文作者签名:铴解 指导教师签名: 沙√ 签名日期:加f6年年月仫日 签名日期也/%年侈弟 论文作者毕业去向 工作单位: 联系电话: E-mail: 通讯地址: 邮政编码: 万方数据 致谢两年多的研究生生涯如白驹过隙,转眼即逝。此时的心情是欢喜中掺杂着几 致谢 两年多的研究生生涯如白驹过隙,转眼即逝。此时的心情是欢喜中掺杂着几 分留恋!即将走出校园走向人生新的历程,让我感到很欣喜,然而即将离开熟悉 的校园和这些年伴我成长的老师和同学又让我感到非常不舍。 在论文完成之际,我由衷地感谢那些给我提供帮助和指导的老师及同学。 首先,感谢我的导师胡学钢教授,胡老师严谨细致、一丝不苟的作风一直是 我工作、学习中的榜样。感谢他作为老师对我的点播迷津,作为长辈对我的关怀 备至,能师从胡老师,我感到万分庆幸。在此谨向胡老师表示我最诚挚的敬意和 感谢。 其次,我要感谢张玉红老师,她在我的研究方向和实验上给予了很多的指导 和帮助,并在论文的写作上提出了宝贵的修改意见,所发表的每一篇论文都经过 她的数次修改及认真指导,正是她的言传身教和谆谆教诲才使我在硕士生涯中获 得这些成就。 同时,我还要感谢李培培师姐,感谢她在多次小组讨论会上和平时学术探讨 中对我研究领域给予的有效性的建议,同时师姐认真科研和一丝不苟的科研态度 深深影响了我。 另外,我还要特别感谢数据挖掘与智能计算“干人计划”研究团队的所有老 师和成员。感谢吴共庆、张晶、李磊、郭丹、谢飞、阙夏等各位老师,感谢他们 在学习生活中给予我的指点与帮助,感谢往届的张靖、王海平、俞奎等博士师兄 师姐,感谢往届的欧倩倩、徐旭、吴斐、毕佳佳、许尧等硕士师兄师姐,感谢同 届的陈方鑫、陈伟、马利伟、胡骏等同学,感谢他们对我研究生生涯的陪伴和支 持。 最后,我还要感谢我的家人、朋友,感谢他们为我所付出的一切。 作者:杨超群 2016年4月6日 万方数据 摘要在线评论、网络聊天、搜索片段和微型博客等短文本包含大量有价值的潜在 摘要 在线评论、网络聊天、搜索片段和微型博客等短文本包含大量有价值的潜在 信息,然而,短文本具有特征稀疏、描述概念信号弱等特点,使得传统的文本分 类技术面临极大的挑战。论文针对短文本特征稀疏性和描述概念信号弱等问题开 展分类方法研究,选题具有重要的理论和应用价值。 论文主要工作如下: (1)对短文本相关的研究领域及覆盖范围进行详细的分析,并对文本分类 的相关关键技术进行简要概述。 (2)针对已有特征选择方法对特征和类之间的相关性考虑不够充分等问 题,提出基于类区分特征的短文本分类方法。通过特征在类内和类间的分布关系 进行特征权重的衡量,迭代的选取局部环境下的重要特征,并依据这些特征进行 局部分类,实验结果表明该方法在时间性能和准确率方面有很大优势。 (3)针对短文本的特征稀疏及数据集存在的不平衡问题,提出一种基于自 身特征扩展的短文本分类方法研究。首先对于每个类别选取相同比率具有高指示 性的特征并进行合并;其次,依据最终的特征空间,对训练集和测试集进行向量 化表示,并以此进行分类。实验结果表明方法可以有效的提高短文本分类效果。 关键词:类区分特征;稀疏性;概念信号弱;短文本分类;不平衡 II 万方数据

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档