基于投影寻踪回归文本自动分类的模型.pdfVIP

基于投影寻踪回归文本自动分类的模型.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
清华大学学报(自然科学版)2005年第45卷第s1期 —ISSN10—00-0054 CN 1I-2223/NJ Univ(Sci&Tech),2005,V01.45,No.S1 Tsinghua 基于投影寻踪回归文本自动分类的模型 廖海波1, 万中英2, 王明文1 (1.江西师范大学计算机信息工程学院,南昌330027;2.江西师范大学物理与通信电子学院,南昌330027) 摘要:文本被表示为向量空间模型后,是维数非常高的数 法不仅可以降低计算复杂度,减少噪音数据对分类 据,对其进行维数约简是必要的。投影寻踪正是一种稳健的、 效果的影响,还可以缩短计算时间。但是这些方法有 非参数化的维数约简方法。提出了一种基于投影寻踪回归的 着其自身的缺陷,即它们都是建立在数据总体服从 文本自动分类模型。应用该模型,可以真实地描述高维数据 正态分布这个假定基础之上的,而实际问题中有许 的客观内在规律,从而达到提高文本分类精度的目的,岭函 多数据是不满足正态分布假定的,因此需要用稳健 数拟合函数的合理选择是提高分类精度的关键,故对拟合函 的或非参数的方法来解决这一问题。由于投影寻踪 数的选取做了初步的研究。采用标准文档集Reuters一21578 方法本身不对观测数据作正态分布等假定,所以该 进行了分类实验,同时在相同的预处理条件下,与目前常用 的方法进行了对比实验。实验结果表明,该模型对文本自动 方法能充分地利用高维观测数据中的所有信息,特 分类具有较高的召回率和准确率。 别是可以利用常规方法无法利用的非正态和复杂的 关键词:文本分类;维数约简;投影寻踪回归 非线性信息[2。4]。本文提出了基于投影寻踪回归的文 本自动分类模型。通过投影寻踪回归模型,可以真实 391 中图分类号:TP 文献标识码:A 文章编号:1000—0054(2005)S1—1823—05 地描述高维数据的客观内在规律,从而达到提高文 本分类精度的目的。 Automatedtextclassificationmodel 1投影寻踪回归模型 basedon 1989年,PeterHall[53提出的投影寻踪回归思 projectionpursuitregression LIAO 想如下。 Haib01,WANZhongyin92,WANGMingwenl (1.Schoolof Information (x。,Y;}::,,Xt是P元函数,既是一元函数。非 Computer Engineering, NormM 330027,China; Jiangxi University,Nanchang 参数回归模型是 of andCommunication 2.SchoolPhysics Electron, (1) NormM 330027,China) Yk—G(xk)+.‰,1≤k≤咒. Jiangxi University,Nanchang

文档评论(0)

whl005 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档