- 1、本文档共18页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
刘禹 中科院自动化所 2009M8014629010
2010-8-14
[键入公司名称]
SVM 在文本分类中
的应用
[键入文档副标题]
目录
第一部分:统计学习基本框架3
第二部分:SVM 原理与对数回归原理3
线性支持向量机:可分的情况4
第三部分:实验 6
实验目的6
实验设计7
实验设计框架7
文本预处理一体化模块框架图8
该模块运行情况截图8
三种特征词选择算法介绍9
实验进展 10
实验结果 11
小结: 17
统计机器学习
刘禹 自动化所 2009M8014629010
第一部分:统计学习基本框架
统计机器学习的模型框架可以作如下表示:
图 1
统计机器学习模型框架主要有三个组件构成
(1) Generator, 图中用G 表示。它从一个概率未知,但是固定的分布函数F (x )
中独立取样,产生随机向量x .
(2 ) Supervisor,图中用S 表示。它对每个输入向量x 根据固定但是未知的条件
概率分布F (y|x )产生一个输出向量y.
(3 )Learning Machine,图中用LM 表示。它能够实现一系列函数f(x,a) a ∈Λ的
集合,Λ为一系列参数。
所谓学习问题就是从函数集——f(x,a) a ∈Λ的集合,Λ为一系列参数,中寻找最
`
优的函数f(x, ) ,使其能够更好地近似Supervisor 的输出。
统计机器学习中的一个重要的度量手段是VC 维(由 Vapnik-Chervonenkis 提
出),它表征一个统计模型能够正确分类的能力和精度。
学习问题存在两类风险:经验风险和结构风险。统计机器学习的目标是为了达到
经验风险最小 (ERM),结构风险 (SRM)最小。
第二部分:SVM 原理与对数回归原理
支持向量机(SVM )属于判别式学习系统,其众多优点使得它成为了最流行
的算法之一。它不仅有扎实的理论基础,而且在许多应用领域比大多数其他算法
更准确,尤其在处理高维数据时。一些研究人员认为支持向量机可能是解决温饱
分类问题的最准确的算法。它也被广泛用于分类和生物信息领域。
一般来说,支持向量机是一个线性的学习系统,可以用于两类的分类问题。
令训练集合D 为{(x1,y1),(x2,y2),(x3,y3), …,(xn,yn)} ,其中xi=(xi1,xi2,…,xin)是一个r
维输入向量,如遇实数空间X
∈ ,yi 是 它的类别标记(输出值),并且yi ∈{1,
-1}1 表示正类,-1 表示负类。为了构造一个分类器,支持向量机寻找一个线性函
数,f (x ) =w •x +b 。如果f(xi)0 那么xi 被赋予正类,否则赋予负类。即
f (x ) 是一个实值函数 w={w1,w2,…,wr}被称为权向量。b 被称为偏置。w •x 表
示点积。本质上支持向量机是寻找一个超平面w •x +b 0 这个超平面能够区
分正类和负类,被称为决策边界。
线性支持向量机:可分的情况
通过线性代数中的知识,我们知道在w •x +b 0 中,w 定义了垂直与超平
面的方向。w 被称为超平面的法向量。不改变法向量w ,我们可以通过变化b 来
平移超平面。注意到w •x +b 0 含有内在的自由度。通过加入参数,
λ R +
λw •x +λb 0 其中 ∈ ,我们可以调节超平面,并且不改变函数。
因为支持向量机要最大化正例和负例之间的边距,那让我们找到这个边距。令+
(或者 )为分割超平面(w •x +b 0 )离正例(或者负例
您可能关注的文档
最近下载
- 冠心病合并房颤的抗凝抗栓策略.ppt VIP
- 副高中医护理试题及答案.docx
- 员工职业发展通道设计课程.ppt VIP
- 注册安全工程师中级其他安全生产专业实务(电气安全)模拟试卷3.pdf VIP
- VDI2230高强度螺栓连接的系统计算中文版.pdf VIP
- 汉威KB500可燃气体报警控制器使用说明书.pdf
- 2024-2030全球摩托车和机车头盔行业调研及趋势分析报告.docx
- 2024-2030全球全面式蓝牙摩托车头盔行业调研及趋势分析报告.docx
- 神木市东安煤业有限公司煤炭资源整合项目(0.60Mt_a)(重大变动)环境影响报告书.pdf VIP
- (高清版)DB11∕T 1702-2019 生活饮用水样品采集技术规范.pdf VIP
文档评论(0)