- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第37卷 第3期 江西师范大学学报 (自然科学版) V01.37No.3
2013年 5月 JournalofJiangxiNormalUniversity(NaturalScience) Mav2013
文章编号:1000-5862(2013J034)284-04
投影寻踪模型中投影指标的改进
万中英,王明文,揭安全,万剑怡
(江西师范大学计算机信息工程学院,江西南昌 330022)
摘要:针对文本分类问题及投影寻踪降维的特点,对投影寻踪模型中投影指标进行改进,给出了新的投
影指标.对不同的投影指标进行相应的对比实验 ,实验结果表明:改进的指标不仅充分利用投影寻踪降到
超低维的特点,而且对文本分类的性能有了较大地提高.
关键词:文本分类;投影寻踪;投影指标
中图分类号:1P391 文献标志码:A
据通过某种组合,投影到低维 (1—3维)子空间上,
0 引言 并通过极小化(或极大化)某个投影指标,寻找出能
反映原高维数据结构或特征的投影,在低维空间上
文本分类 剖是根据预先定义的主题类别,按 对数据结构进行分析,以达到研究和分析高维数据
照一定的规则将文档集合中未知类别的文本 自动确 的 目的.
定一个类别.然而文本集中的单词、短语多达数万至 投影指标是根据分类的 目标构造和优化用于寻
数十万个,如果直接用来构成文本特征向量,必将带 找最优投影方向的 目标函数.它用于衡量投影到低
来以下问题:(I)会产生所谓的 “维数灾难”,即高 维空间上的数据是否有意义,即要找到 1个或几个
维空间中的稀疏样本问题 ;(Ⅱ)极易导致过度拟合 投影方向,使它的指标值达到最大或最小值.因此,
现象,导致分类器的泛化能力有限;(Ⅲ)计算复杂 在投影寻踪模型中投影指标的好坏直接影响投影方
度太高,不能满足实际的性能需求.因此,必须先进 向的选取.
行降低维数.针对此问题已经有相关研究 J,采用 设有几个文本X ∈R ,m为特征词的个数,a∈
一 种投影指标进行降维,再利用KNN或贝叶斯方法 R 为投影方向,则文本 的投影值为
进行分类,本文充分利用投影寻踪将数据降到 1维 m
zf=∑ =口 ,i=1,…,√=1,…,m.
的特点,提出直接以1维文本分类的性能指标 值
在已有文献中构造的投影指标为
作为新的投影指标进行降维.对不同的投影指标进
Q(z)=B(z)/w(z),
行相应的对比实验,实验结果表明:改进的投影指标
其中z为将m维数据投影到 1维的投影值,()为
不仅可以加快分类速度,而且可以提高分类性能.
两类 中心离差,o(z)为类 内散布的平均值,且
曰(z),D()定义为
1 投影寻踪和投影指标
()=lE(()一E(()l, (1)
1.1 投影寻踪
投影寻踪 “(ProjectionPursuit,PP)是用来分
析和处理高维观
文档评论(0)