基于概念向量空间模型的电子邮件分类.pdfVIP

基于概念向量空间模型的电子邮件分类.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第28卷第 l2期 计算机应用 V0l_28No.12 2008年 12月 ComputerApplieati0ns Dee.2008 文章编号:1001—9081(2008)12—3248—03 基于概念 向量空间模型的电子邮件分类 曾 超 ,吕 钊 ,顾君忠 ‘ (华东师范大学信息科学技术学院,上海 200241) (czeng@iea.stc.sh.CII) 摘 要:提 出了一个基于概念向量空间模型的电子邮件分类方法。在提取电子邮件特征向量时,以WordNet语言 本体库为基础 ,以同义词集合概念代替词条,同时考虑同义词集合 间的上下位关系,从而建立电子邮件的概念向量空 间模型作为电子邮件的特征向量。使用TF IWF IWF方法对概念向量进行权值修正,最后通过简单向量距离分类 方法来确定电子邮件的类别。实验结果表明,当训练集合数 目有限时,该方法能够有效提高电子邮件的分类准确率。 关键词:电子邮件分类;WordNet;概念向量;向量空间模型 中图分类号:TP393.098 文献标志码 :A E.mailclassification basedon conceptvectorspacemodel ZENGChao,LU Zhao,GUJun—zhong (Institute ComputerApplications,EastChinaNormalUniversity,Shanghai200241,China) Abstract:A new approach ofe—mailclassification based onthe conceptvectorspace modelwasproposed. In this approach.theeigenvectorofthe e—mailwasextracted during training processby replacingtermswith synonymy setsin WordNetandconsideringhypernymy—hyponymyrelationbetweensynonymysets.Then,TF IWF IWFmethodwasused torevisetheweightoftheconceptveetor.Intheend.thetypeofe—mailwasdeterminedusingthesimplevectorclassification method.Comparedwiththetemr —basedVSM approach,theresultsshowthatthisapproachcanimprovetheaccuracYofe—mail classificationespeciallywhenthesizeoftrainingsetissmal1. Keywords:E—mailclassification;WordNet;conceptvector;VeetorSpaceModelfVSM) 0 引言 1 相关研究背景 电子邮件是人们在网络环境下实现信息交流的主要手段 通常,电子邮件分类主要有如下三个环节:电子邮件文本 之一。在 Internet网络已经普及的今天,收发电子邮件几乎已 的预处理、特征选择和构造分类器。 成为相当一部分人正常生活的一部分。但是,当人们在享用 预处理环节由文本分词、特征表示和特征提取三部分组 成。特征表示 目前按照是否进行语义理解可以分为两类 :基 网络信息交流快捷的同时,电子邮件的存在和泛滥也给人们

文档评论(0)

jingpinwedang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档