- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
lII
lII I FI Ul IIII IIII Ill IIIIIIIIllll IIIJ
Y3041 907
A Dissertation Submitted to Guangdong University of Technology for the Degree of Master
(Master of Engineering Science)
Semi.supervised SVM--Based Transfer Learning fOr Te)(t Classification
Candidate:Tan Jianping Supervisor:Prof.Liu Bo
May 201 6
SchooI of Automation Guangdong University of Technology
Guangzhou,Guangdong,P.R.China,51 0006
万方数据
摘要摘要
摘要
摘要
随着互联网的快速发展,各种信息风靡网络,而这些网络信息主要通过文本的 形式来表达,因此对文本数据进行合理有效的处理是十分必要的。文本分类是进行 信息挖掘的一种重要数据分析方法,它能够从数据中挖掘关键信息并构建模型,使 计算机从过去的数据中获取知识,解决问题。
传统的文本分类方法在要求有充足标注数据训练模型的同时还要求训练数据 与测试数据属于同一分布。支持向量机(SVM)作为常用文本分类方法之一,特别 适合处理像文本这样的数据集较大的分类问题。然而,SVM在处理分类问题时也常 会因为训练样本不充分而无法学习到高精度的分类模型。近年来,在SVM算法中 引入半监督学习模式,利用大量未标注数据与少量标注数据共同训练分类器,在一 定程度上解决了训练数据不充分的问题,但半监督学习仍需满足训练数据与测试数 据同分布假设。迁移学习是最近兴起的一种有效解决上述问题的学习方式,其可以 利用相似领域中大量标注数据来帮助新领域目标任务的学习。于是在SVM中引入 迁移学习,在提供大量标注数据的同时还放宽了对数据分布的要求。
本文通过结合迁移学习和半监督学习来研究文本分类问题,主要研究内容如
下:
(1)针对传统有监督SVM文本分类方法的不足,详细描述了半监督式的自训 练SVM分类方法,包括其基本思想、具体流程以及存在的缺陷。
(2)针对以往SVM迁移学习方法在训练过程中大量迁移与目标数据很不相似 的源领域数据的问题,提出了一种利用源域支持向量进行相似迁移的方法。该方法 先利用源领域训练得到的支持向量代表源领域数据,再利用源域支持向量与目标训 练集的相似度来衡量源域数据的重要性,进而有效的对源领域知识进行迁移。
(3)考虑到未标注数据可能包含有对分类起重要作用的信息,提出了结合目标 领域未标注数据共同学习分类模型的基于半监督的SVM迁移学习分类方法。该方 法以SVM迁移模型为基础分类器,给未标注数据带上初始标签并共同学习分类模 型,进一步提高了分类器性能。
将本文提出的SVM迁移学习方法以及基于半监督的SVM迁移学习方法与传统
万方数据
广东工业大学硕士论文的SVM方法在20
广东工业大学硕士论文
的SVM方法在20 Newsgroups数据集上进行实验对比,证明了本文提出方法的有效 性。然后与传统的文本分类方法进行比较,证明了本文方法的可行性与优越性。
关键词:迁移学习;半监督学习;SVM;文本分类
万方数据
ABSTR
ABSTR ACT
AB STRACT
With the rapid development of Internet,there are all kinds of information in the network,and they are mainly expressed through the text.So its necessary to deal with the text data reasonable effectively.Text classification is an important data analysis method for information science,it can mine the key information from the data to build a model and acquires knowledge from the past data to solve the problem.
The traditional text classification methods need enough labeled data for the model training.In addition,they require that the distribut
您可能关注的文档
- 基于办公自动化的学生信息管理系统设计与实现-计算机应用技术专业论文.docx
- 基于办公自动化系统的Internet蠕虫的研究与防治-软件工程专业论文.docx
- 基于半Markov决策过程的智能电网储能调峰的最优控制-控制工程专业论文.docx
- 基于半边结构的渐进网格处理算法的并行化研究-计算机软件与理论专业论文.docx
- 基于半波长阻抗谐振器微带陷波超宽带天线的研究-电磁场与微波技术专业论文.docx
- 基于半参数方法的西安曲江新区商品住宅特征价格研究-技术经济及管理专业论文.docx
- 基于半车模型的汽车防抱死制动系统与主动悬架系统的集成控制研究-控制理论与控制工程专业论文.docx
- 基于半脆弱水印电子印章认证系统的研究与实现-通信与信息系统专业论文.docx
- 基于半导体薄膜型磁阻元件电流开关的研究-光学专业论文.docx
- 基于半导体材料色散特性的慢光干涉仪光谱性能研究-物理电子学专业论文.docx
- 基于半监督的多流形学习算法研究-计算机技术专业论文.docx
- 基于半监督的社交网络垃圾用户检测的研究-软件工程专业论文.docx
- 基于半监督的网页分类-计算机科学与技术专业论文.docx
- 基于半监督的支持向量机网页分类方法-计算机科学与技术专业论文.docx
- 基于半监督和深度学习的生物实体关系抽取-计算机应用技术专业论文.docx
- 基于半监督机器学习耕地等级评价研究-计算机应用技术专业论文.docx
- 基于半监督集成的遥感图像的分割和分类-模式识别与智能系统专业论文.docx
- 基于半监督降维的人脸识别-电子与通信工程专业论文.docx
- 基于半监督聚类的个性化搜索研究-计算机应用技术专业论文.docx
- 基于半监督聚类的爬虫在线样本生成算法-计算机科学与技术专业论文.docx
文档评论(0)