- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
万方数据
万方数据
西安电子科技大学 学位论文独创性(或创新性)声明
秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在 导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标 注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成 果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说 明并表示了谢意。
申请学位论文与资料若有不实之处,本人承担一切的法律责任。 本人签名: 日期
西安电子科技大学 关于论文使用授权的说明
本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保 留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内 容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后 结合学位论文研究课题再撰写的文章一律署名单位为西安电子科技大学。
本人签名: 日期
导师签名: 日期
万方数据
万方数据
摘要
摘要
随着即时通信和互联网技术的快速发展,网络中的信息每天都在以一定的速 率增长着,生活中最常见的就是如:网络新闻、微博及其评论、聊天记录、手机 短消息、科技文献摘要、搜索引擎返回的结果和社区论坛中的发帖回复等形式的 短文本信息,这类文本通常都控制在 160 个字左右,存在的种类样式繁多,而且 经常以口语化、生活化的不规则形式出现。特征词较少、关联性不强是这类短文 本的主要特点,并且其中可能隐匿着一些有价值的信息内容,因而对短文本进行 有效的组织分类是非常有必要的。传统的文本分类方法大多是以长文本作为对象 进行研究的,如果直接套用于短文本将会影响分类取得的效果。另外,通常用于 构建传统文本分类器的已标注样本是需要由人工进行标注才能获得的,既费时又 费力,还易形成标注瓶颈,而相比之下,数量颇为丰富的未经标注样本的获取与 搜集却是较为容易的。
传统基于监督学习的分类方法,仅仅是使用了数据样本集合中的已标注部分, 并没有注意到其中未标注样本的存在价值,未能较好地挖掘出可能隐藏的信息。 而半监督学习的方法则是可以将少量的已标注样本与大量的未经标注样本相结合 起来进行学习训练,从而使未标注部分能被充分地利用,文本分类器性能得到有 效地改善,因此这样的方法也逐渐地被人们所关注。
考虑到短文本不同于长文本的特点,再加上参考了已有的相关研究成果,本 文在现有的分类算法基础上,将半监督学习的思想贯穿到短文本分类的过程当中, 改进地使用维基百科对短文本进行特征扩展,提出一种基于半监督学习的文本分 类方法,用于实现对短文本的有效分类。该方法通过使用外部知识资源库构建的 特征词扩展表对短文本进行信息扩充以解决特征稀疏等问题,然后构建基于监督 学习的初始中间过程的分类器,不断地迭代训练数据样本中未标注部分,再用更 新过的训练样本集来构建最终的文本分类器,通过实验验证了该方法能够达到充 分利用大量未标注样本来改善分类器性能的目的。
另外,为了解决传统基于向量空间模型构建短文本分类器时造成的文本结构 信息的缺失以及大量样本存在的标注瓶颈问题,提出了一种利用图结构模型进行 半监督文本分类的方法,将数量规模较大的未标注样本与少量的已标注样本相结 合进行基于图结构的自学习,进行基于最大公共子图的相似度计算,保留了短文 本的结构关联关系,通过对未标注样本的自学习来实现训练样本集的扩充。最后 经对比实验表明,这种方法能够获得较好的分类效果。
关键词:文本分类 短文本 半监督学习 自训练 图结构
基于半监督学习的中文短文本分类研究
Abstract
Abstract
With the rapid development of instant messaging and Internet technology, the information on the Internet is growing at a certain rate every day. It is easy to be found in daily life such forms like: network news, microblog and comments, talk records, short message from mobile phone, summaries of technology literature, the results returned by the search engines and the post and reply from community forums, etc. These ki
您可能关注的文档
- 基于半导体制冷技术的高精密温度控制系统研究-测试计量技术及仪器专业论文.docx
- 基于半导体制冷技术的激光器恒温控制仪的应用研究-测试计量技术及仪器专业论文.docx
- 基于半导体制造业的生产设备产能跟踪系统-计算机技术专业论文.docx
- 基于半定规划问题的算法及其应用研究-运筹学与控制论专业论文.docx
- 基于半定量的A重工集团信息安全应用-工商管理专业论文.docx
- 基于半定松弛的数字水印共谋攻击检测算法研究-通信与信息系统专业论文.docx
- 基于半刚性基层沥青路面温度场和温度应力数值模拟的研究-土木工程专业论文.docx
- 基于半刚性温敏性无规共聚物的合成与表征-高分子化学与物理专业论文.docx
- 基于半胱氨酸与重金属离子相互作用的分析应用研究-分析化学专业论文.docx
- 基于半互穿网络结构含氟聚酰亚胺增强Nafion复合质子交换膜材料的研究-材料科学与工程;材料学专业论文.docx
- 基于半监督学习和区域特性的图像分割算法研究-电路与系统专业论文.docx
- 基于半监督隐马尔科夫的汉语词性标注研究-计算机应用技术专业论文.docx
- 基于半监督优化分类的入侵检测方法研究计算机应用技术专业论文.docx
- 基于半监督优化分类的入侵检测方法研究-计算机应用技术专业论文.docx
- 基于半结构化文本信息抽取的简历识别系统-计算机应用技术专业论文.docx
- 基于半解析砰击理论的棱柱滑行艇“海豚运动”发生界限研究-流体力学专业论文.docx
- 基于半绝对离差的风险投资组合决策模型-概率论与数理统计专业论文.docx
- 基于半可信第三方的数字水印协议及其应用研究-计算机软件专业论文.docx
- 基于半强制分红政策背景的上市公司现金分红行为研究-金融学专业论文.docx
- 基于半桥LLC谐振变换器的LED驱动电源设计-电气工程专业论文.docx
文档评论(0)