利用SVM进行文本分类并研究特征选择对文本分类影响.pdfVIP

利用SVM进行文本分类并研究特征选择对文本分类影响.pdf

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
刘禹 中科院自动化所 2009M8014629010 2010-8-14 [键入公司名称] SVM 在文本分类中 的应用 [键入文档副标题] 目录 第一部分:统计学习基本框架3 第二部分:SVM 原理与对数回归原理3 线性支持向量机:可分的情况4 第三部分:实验 6 实验目的6 实验设计7 实验设计框架7 文本预处理一体化模块框架图8 该模块运行情况截图8 三种特征词选择算法介绍9 实验进展 10 实验结果 11 小结: 17 统计机器学习 刘禹 自动化所 2009M8014629010 第一部分:统计学习基本框架 统计机器学习的模型框架可以作如下表示: 图 1 统计机器学习模型框架主要有三个组件构成 (1) Generator, 图中用G 表示。它从一个概率未知,但是固定的分布函数F (x ) 中独立取样,产生随机向量x . (2 ) Supervisor,图中用S 表示。它对每个输入向量x 根据固定但是未知的条件 概率分布F (y|x )产生一个输出向量y. (3 )Learning Machine,图中用LM 表示。它能够实现一系列函数f(x,a) a ∈Λ的 集合,Λ为一系列参数。 所谓学习问题就是从函数集——f(x,a) a ∈Λ的集合,Λ为一系列参数,中寻找最 ` 优的函数f(x, ) ,使其能够更好地近似Supervisor 的输出。 统计机器学习中的一个重要的度量手段是VC 维(由 Vapnik-Chervonenkis 提 出),它表征一个统计模型能够正确分类的能力和精度。 学习问题存在两类风险:经验风险和结构风险。统计机器学习的目标是为了达到 经验风险最小 (ERM),结构风险 (SRM)最小。 第二部分:SVM 原理与对数回归原理 支持向量机(SVM )属于判别式学习系统,其众多优点使得它成为了最流行 的算法之一。它不仅有扎实的理论基础,而且在许多应用领域比大多数其他算法 更准确,尤其在处理高维数据时。一些研究人员认为支持向量机可能是解决温饱 分类问题的最准确的算法。它也被广泛用于分类和生物信息领域。 一般来说,支持向量机是一个线性的学习系统,可以用于两类的分类问题。 令训练集合D 为{(x1,y1),(x2,y2),(x3,y3), …,(xn,yn)} ,其中xi=(xi1,xi2,…,xin)是一个r 维输入向量,如遇实数空间X ∈ ,yi 是 它的类别标记(输出值),并且yi ∈{1, -1}1 表示正类,-1 表示负类。为了构造一个分类器,支持向量机寻找一个线性函 数,f (x ) =w •x +b 。如果f(xi)0 那么xi 被赋予正类,否则赋予负类。即 f (x ) 是一个实值函数 w={w1,w2,…,wr}被称为权向量。b 被称为偏置。w •x 表 示点积。本质上支持向量机是寻找一个超平面w •x +b 0 这个超平面能够区 分正类和负类,被称为决策边界。 线性支持向量机:可分的情况 通过线性代数中的知识,我们知道在w •x +b 0 中,w 定义了垂直与超平 面的方向。w 被称为超平面的法向量。不改变法向量w ,我们可以通过变化b 来 平移超平面。注意到w •x +b 0 含有内在的自由度。通过加入参数, λ R + λw •x +λb 0 其中 ∈ ,我们可以调节超平面,并且不改变函数。 因为支持向量机要最大化正例和负例之间的边距,那让我们找到这个边距。令+ (或者 )为分割超平面(w •x +b 0 )离正例(或者负例

文档评论(0)

kehan123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档