- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
华中科技大学硕士学位论文
华
中
科
技
大
学
硕
士
学
位
论
文
PAGE 10
PAGE 10
特别指出的是,为了方便起见,本文在后续章节讨论分类问题均是以文本为数
据对象,但是所提出的方法并非仅适用于文本,从现有的研究成果来讲,已经提出 的主题模型已能应用图像标签抽取[9] 、基因序列识别[10]等在形式上异于文本的数 据。更进一步来讲,在面对监督学习问题时,无论处理的是文本、图像抑或是多媒 体等形式的数据,经过预处理步骤后得到的均是一个部分位置缺失数值的矩阵,也 就是说,监督学习从根本上来讲是缺失数据填充问题。所以,从逻辑上来讲,本文 的框架用于非文本数据也是可行的。
1.2 国内外研究概况
监督学习按数据分析形式的不同可以分为两种:分类和预测。抽象来说,这两 个问题均是从训练数据中得出映射关系,用于描述数据与数值之间的对应关系,从 而对新到来的数据进行分类或者预测。具体来讲,分类是预测分类标号,可以是离 散的、无序的,而预测是建立连续型函数模型来预测连续型数值[11]。例如,可以建 立一个分类模型,对用户的电子邮箱中的邮件进行分类,判断是否是垃圾邮件;也 可以建立预测模型,给定具有若干年工作经验的大学生,预测他们工资水平。
发展概况
本小节接下来会概述分类问题和回归问题的发展。
(1)分类的发展
国外关于分类的研究起步较早,始于 20 世纪 50 年代末。1957 年,美国 IBM 公 司的 H. P. Luhn 在自动分类领域进行了开创性的研究,标志着自动分类作为一个研 究课题的开始。近几年来文本自动分类研究取得了若干引人关注的成果,并开发出 了一些实用的分类系统。
概括而言,自动分类研究在国外经历了如下几个发展阶段[12]: 第一阶段(1958-1964):主要进行自动分类的可行性研究; 第二阶段(1965-1974):进行自动分类的实验研究; 第三阶段(1975-1989):进入实用化;
第四阶段(1990 年至今):面向互联网的文本自动分类研究阶段。
相对而言,国内在分类方面的研究起步较晚。侯汉清先生所写的分类法的发展
趋势简论[13]是国内较早的关于自动文本分类技术方面的概述性报告,此后,文本自 动分类技术的研究在国内逐渐兴起。20 世纪 90 年代,国内一些学者也曾把专家系统 的实现技术引入到文本自动分类领域,并建成了一些图书自动分类系统,如东北大 学图书分类系统、长春地质学院图书馆的图书分类系统等[14]。
(2)预测的发展 到目前为止,最广泛使用的数值预测方法是回归,回归的概念是 Frances Galton(1822~1911)爵士提出的一种统计学方法[11]。大部分时候,研究人员将术
语“数值预测”和“回归”作为同义词使用。回归起源于最小二乘法,主要是研究自变量 与因变量之间关系,并通过计算因变量的平均值来进行预测,而通过训练所得到的 回归方程可以是直线形式,也可以是曲线形式。回归分析的发展过程也是从简单到 复杂,从标量形式的自变量与因变量,到矢量形式的自变量和标量形式因变量,再 到多项式回归研究。
典型方法 本节仍从分类和预测两方面来论述已有典型方法。 1)应用于分类的典型方法
根据分类知识获取方法的不同,文本分类系统大致可分为两种类型:基于知识 工程的分类系统和基于机器学习的分类系统。在 20 世纪 80 年代,文本分类系统以 知识工程的方法为主,以这种方法进行的分类依靠领域专家的经验提取出一组逻辑 规则,分类结果虽然十分准确但耗费大量人力。进入 90 年代以后,基于机器学习的 分类方法日益受到重视,成为主流技术。常用的分类算法包括:支持向量机,基于 贝叶斯理论的朴素贝叶斯和贝叶斯信息网络,K 近邻,神经网络及决策树等。下面 对这几种方法作简要介绍。
(1)支持向量机
支持向量机的基础工作早在上世纪 60 年代就已经出现,引起极大关注是在上世
纪 90 年代,它是一种基于统计学习的方法,通过构造最优线性分类超平面来构造分 类器[15]。它的基本原理是将原数据从低维空间变换到高维空间,使得在低维空间无
法线性可分的数据首先被映射到高维空间中,其次通过搜索发现最佳超平面使得数
据线性可分,整个搜索求解过程从本质上来讲是一个优化问题。在解决小样本学习、 非线性及高维模式识别问题上它的表现更为优秀,尤其是处理复杂的非线性决策边 界方面,支持向量机的建模能力是相当出色的,不过这是以相对其它分类器要花费 更多的训练时间为代价的,这也限制了该方法在大规模数据上的应用。
(2)朴素贝叶斯 朴素贝叶斯,也称简单贝叶斯,它是基于贝叶斯定理,即利用先验概率和似然
函数来计算后验概率,通过假设在给定类别的情况下属性之间相互独立,也就是引 用条件独立性来简化计算,比较后验概率的大小来判断属性与类别间的关素[
您可能关注的文档
- 间歇性低氧训练对红细胞生成及其抗氧化能力的影响-运动人体科学专业论文.docx
- 甲烷在燃料型溶剂中溶解度的研究-化工工艺专业论文.docx
- 间歇性低氧训练对男子赛艇运动员身体机能指标影响的研究-运动人体科学专业论文.docx
- 甲烷蒸汽补碳转化制甲醇合成气催化剂的研究-工业催化专业论文.docx
- 甲烷制燃料电池氢源催化剂的设计改进-供热、供燃气、通风及空调工程专业论文.docx
- 基于机车司机颜色偏好的驾驶室视觉界面优化设计研究-交通运输规划与管理专业论文.docx
- 间歇性低氧预处理、GBE50药物预处理对心脏保护作用及其机制的实验分析-内科心血管专业论文.docx
- 甲烷重整及以重整气为还原剂的氮氧化物存储还原性能的试验研究-动力工程及工程热物理专业论文.docx
- 间歇性低氧预处理、GBE50药物预处理对心脏保护作用及其机制的实验研究-内科心血管专业论文.docx
- 基于机床动态特性的高速插补关键技术研究-机械电子工程专业论文.docx
- 基于机器视觉的板带钢图像实时采集与处理系统研究-机械设计及理论专业论文.docx
- 监督主题模型的研究与应用-软件工程专业论文.docx
- 基于机器视觉的板式换热器气密性检测方法研究-控制工程专业论文.docx
- 监管、管理者行为和商业银行治理问题-金融学专业论文.docx
- 甲状旁腺激素(PTH)介导的高转换型肾性骨病的分子机理分析-内科学(肾脏病)专业论文.docx
- 监管变化和利率市场化环境下XX商业银行企业金融业务转型的对策研究-工商管理专业论文.docx
- 基于机器视觉的背光模组表面瑕疵 检测设备研发-控制工程专业论文.docx
- 甲状旁腺激素(PTH)介导的高转换型肾性骨病的分子机理研究-内科学(肾脏病)专业论文.docx
- 甲状旁腺激素促成骨作用的初步研究-内科学(内分泌)专业论文.docx
- 基于机器视觉的编码器光栅自动调整技术-机械制造及自动化专业论文.docx
最近下载
- 2025届高考英语长难句分析课件.pptx
- 2023部编新人教版五年级(上册)道德与法治全册教案.doc VIP
- 水土保持单元工程施工质量检验表与验收表(样表:2混凝土工程)(SLT 336—2025)水土保持工程质量验收与评价规范.docx VIP
- 玻璃板液位计介绍.pptx VIP
- 国家计委“计价格[2002]1980号文”.doc VIP
- 特种工程塑料——PEEK .ppt VIP
- 三国志曹操传宝物全拿攻略.doc VIP
- 卫星气象学课件:第3章 卫星遥感辐射基础.ppt VIP
- 2025年部编新人教版五年级上册道德与法治全册教案资料.doc VIP
- 1正确认识广告教学设计.docx VIP
文档评论(0)