[AI工具宝典]今日头条:AI助力用户推荐(下篇).pdfVIP

[AI工具宝典]今日头条:AI助力用户推荐(下篇).pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

在上篇中主要讲了AI助力实现智能推荐的原理流程和方法,在下篇中笔者将通过上手操

作,来讨论具体落地的方法。

本篇笔者选择今日头条中的13个类别的信息作为上手对象,如:时尚、旅游、美食、育

儿、财经、图片、探索、娱乐、搞笑、直播、体育、科学等,分别通过抽取粉丝数超过百

万以上的用户最近的文章、用户标签和分享的图像,最终在13个类别上获取了353个用

户的ID号和URL,共爬取13个类别的600382张图像,118421条文章和2378个用

户标签作为数据集;然而13个类别的2378个用户标签中有1110个标签重复,所以删

除重复之后,最终得到1286个不重复的用户标签。

由于本篇笔者的目的在于展示AI产品如何上手,so“探讨用户分享图、文章和用户标签

中的语义概念是否能够表征用户的兴趣倾向,并比较单模型数据和多模型数据的推荐效果

”,因此353个用户分为13个类别,其中图像、文章和标签数据如下图:

文章数据处理过程如下:

主要是13个类别的353个用户的文本数据获取后。

首先:对每个类别用户的文本进行去停用词;

停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文

本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为StopWords(停用词)

。这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。但

是,并没有一个明确的停用词表能够适用于所有的工具。甚至有一些工具是明确地避免使

用停用词来支持短语搜索的。

接着:再进行分词,笔者所采用的是Python里的jieba分词,分词完毕后对文章进行深

度学习,然后得出每个用户下所有文章的64维特征向量,生成353个用户文章的特征向

量;

标签数据处理:

再对用户标签数据处理过程主要是13个类别的353个用户的2378个用户标签数据获

取后,将重复的标签删除,最终得到1286个兴趣标签,1286个兴趣标签通过程序生成

1286维度词袋模型;

图像数据处理:

图像数据处理主要使用残差网络(ResNET),ResNet模型获得过图像识别大赛冠军,

通过深度残差网络对图像进行识别,在深度和精度上比传统的CNN可以获得更好的语义

信息表达。笔者通过使用ResNet模型来构建50层的神经网络,获取1000维特征向量

最后,13个兴趣类别的3种数据类型的特征向量进行组合,每位用户生成2350维特

征向量。

推荐系统配置设置:

不同数量好友的推荐,分析比较它们的精确率(Preci⁃sion)、召回率(Recall)和F1值

(F1-measure)变化情况。

(1)精确率测试结果与分析。

七组数据对比测试在不同好友推荐数目的情况下的精确率(Precision)数据记录,其相

应的数据对比情况如下图:

笔者根据上图测试的精确率可以得出以下三条结论:

①测试七文本、标签和图像三类数据的融合推荐效果及其推荐精确率要高于其它单模数据

或其它组合数据推荐;但测试四基于文本和标签的融合推荐精确率和文本、标签和图像三

类数据的融合推荐精确率相近似,相比其它的单模数据和多模数据的融合推荐效果要好;

②基于图像的好友推荐精确最低,说明图像在高维特征向量表达用户兴趣还比较模糊,但

图像特征融合标签特征效果会好于其它单模特征;

③随着推荐好友数量的增加,单模和多模数据的推荐效果的精确率都在逐步降低。

(2)七组测试数据的召回率测试结果与分析。

七组数据对比测试在不同好友推荐数目的情况下的召回率(Recall)数据记录,其相应的

数据对比情况如下图:

笔者根据上图测试召回率可以得出以下三条结论:

①测试七文本、标签和图像三类数据融合推荐效果的召回率要高于其它单模数据或其它组

合数据的召回率;但测试四基于文本和标签的融合推荐效果的召回率和文本、标签和图像

三类数据的融合推荐效果的召回率相近似,相比其它的单模数据和多模数据融合召回率效

果要好;

②测试三基于图像的好友推荐召回率最低,说明图像在高维特征向量表达用户兴趣还比较

模糊,但图像特征融合标签特征效果会好于其它单模特征;

③随着推荐好友数量的增加,单模和多模数据的召回率都在逐步增高。

(3)七组测试数据的F1值结果与分析。

七组数据对比测试在不同好友推荐数目的情况下的F1值(F1-Measure)数据记录,其

相应的

文档评论(0)

LOONG + 关注
实名认证
文档贡献者

三步一卡,卡的潇洒;五步一停,摆个造型。

1亿VIP精品文档

相关文档