文本分类在商品广告分类与应用.pdfVIP

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
竺! !!!!:!:!些!!:!竺!!!竺!型!!!竺竺!!!二!!!! }卓辛帝p辛乎妒母≯矿 4辛守率$章寸妒妒萨矿 圈2多种特征选择算告栏hI∞∞ADs”魏据库t昀性健比较 些类别相关的特征,综合两者的优势,在一定程度上 能够提高分类的正确率。 3实验和分析 唾㈣ 3.1商品广告数据库姐-azoⅡADs的建立 根据嗣上商城“AInazo矿上的商品,我们定义了 000 lo个大类,100个小的商品类别,接着抓取了近5 个商品建立了商品广告数据库“amazoAADs”。我们 提取了三种可能对分类有用的文本信息,分别是:制 造商(M孤u胁tu甘),标题(Thle)和描述(De∞n} 唾㈣ noⅡ)。但并不是每一件商品都包含这三种信息,经过 姓理,一共得到包含三种信息的商品3910件。这些 图3 IGOR以影由租刊栩”扮特征选择算法比较 商品被随扎分成5等份,其中4份(3166件)为训练数 据,l份(7“件)是测试数据。 4总结与展望 3.2宴验结果与分析 本文在多层分类框架下,综台比较了多种特征选 由于支{寺向量机(s唰vcm盯M扯h通c,svM) 择算{击在广告分类中的性能并提出了“由粗到细”的 已经被证明在诸多领域具有较为优越的性能,因此, 特征选择算法来综合利用全局和局部特征选择的优 本文所进行昀所有实验都以线性svM作为分类器进势。实验结果表明信息增益总体上性能最优,或然比 行训练和预测,使用的工具包是著名的sⅧ.Ⅱ曲一 率在维数较低的情况下表现最好,使用我”J的算法来 性能评估使用M∞ro{l和Micm.Fl㈣。 综合二者能进一步提高分类的正确率。 我们的第一纽实验比较了多种已有的特征抽取 本文的不足之处在于只考虑了文本信息,今后我 算法在藐们的数据库上的性能,采用的是多层分耀 们将深八寤f兜§冶利用囝像和文蕺甏对广告进行粥屯 架.实验结果如图2所示。结果表明佑整体上效果最 优.oR在低维度时要明显优于其他特征选择算法。 参考文献: 基于此.将两者结台起来.先用10进行全局特征 c mn曲一 【1]sal∞ⅡG,B∞uqT栅weI曲血g印懈k 选择.再在初选结果中用0R进行局部特征选择。在 m“c*n andMam rc日e词田自咖doⅡhoc∞血g 上一组实验中,发现当维度大于1000时,DF、IG和 513{23 a日蛐∞t.1粥8,24 oR三种性能较优的算法正确率变化不大,因此这组 【2]seba“蛐FMwbjneI删Ⅻng mⅫt。lⅡ8t耐t诽cale自。n一 实验的比较只考虑维度低于1000的情况,实验结果 日tionm^例c口婶曲gs眦vq8,0000,34:1郴 如鼬3所示。从结果中可以看瑚,使用这种“由粗到 I∞№Y.,目ns曲JA 细”的特征选择算法对整体性能相对单独使用其中的 l酬onh衄t 任何—种算法楠了显著的提井。

文档评论(0)

ygeorcgdw + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档