- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
新闻个性化推荐系统(python) 调试整体记录
新闻个性化推荐系统(python)
关zhu并回复 微信公众号:数据挖掘DW (ID:datadw )可获取源代码和数据集。
最近参加了一个评测,是关于新闻个性化推荐。说白了就是给你一个人的浏览记录,预测他下一次的浏览记录。花了一周时间写了一个集成系统,可以一键推荐新闻,但是准确率比较不理想,所以发到这里希望大家给与一些建议。用到的分词部分的代码借用的jieba分词。数据集和代码在下面会给出。
1.数据集
一共五个字段,以tab隔开。分别是user编号,news编号,时间编号,新闻标题,对应当前月份的日(3就是3号)
2.代码部分
先来看下演示图??
? ? ?(1)算法说明
? ??
? ? ?举个例子简单说明下算法,其实也比较简单,不妥的地方希望大家指正。我们有如下一条数据
[plain]? HYPERLINK /buptgshengod/article/details\o view plain view plain HYPERLINK /buptgshengod/article/details\o copy copy
5738936?100649879???1394550848??MH370航班假护照乘客身份查明(更新)????11??
? ? ???5738936这名用户在11号看了“MH370航班假护照乘客...”这条新闻。我们通过jieba找出11号的热点词如下。
[plain]? HYPERLINK /buptgshengod/article/details\o view plain view plain HYPERLINK /buptgshengod/article/details\o copy copy
失联??311?三周年?马方??偷渡客?隐形??护照??吉隆坡?航班??护照者???
? ? ? ?我们发现“航班”、“护照”这两个keywords出现在新闻里。于是我们就推荐5738936这名用户,11号出现“航班”、“护照”的其它新闻。同时我们对推荐集做了处理,比如说5738936浏览过的新闻不会出现,热度非常低的新闻不会出现等。
?(2)使用方法
? ? ? 整个系统采用一键式启动,使用起来非常方便。首先建立一个test文件夹,然后在test里新建三个文件夹,注意命名要和图中的统一,因为新闻是有时效的,每一天要去分开来计算,要存储每一天的内容做成文档。test文档如下图,就可以自动生成。
使用的时候,要先在Global_param.py中设置好test文件夹的路径参数。一切设置完毕,只要找到wordSplite_test包下面的main()函数,运行程序即可。
Global_param中设置参数说明:
? ? ? number_jieba:控制提取关键词的数量
? ? ? number_day:从第一天开始,要预测的天数
? ? ? hot_rate:预测集预测的新闻热度,数值越大热度越高
(3)代码流程
? ? ?首先我们从main()看起。
[python]? HYPERLINK /buptgshengod/article/details\o view plain view plain HYPERLINK /buptgshengod/article/details\o copy copy
import?Get_day_data??
import?Get_keywords??
import?Get_keynews??
import?Delete_Repeat??
import?Get_hot_result??
import?Global_param??
def?main():??
????for?i?in?range(1,Global_param.number_day):??
????????Get_day_data.TransforData(i)??
????????Get_day_data.TransforDataset(i)??
????????Get_keywords.Get_keywords(i)??
????????Get_keynews.Get_keynews(i)??
????Delete_Repeat.Delete_Repeat()??
????Get_hot_result.get_hot_result(Global_param.hot_rate)??
??
main()??????
? ??1.首先Get_day_data.TransforData(i)函数,找到最后一次浏览的是第i天的新闻的用户行为,存放在test/
您可能关注的文档
最近下载
- 雷州市卫生健康局下属事业单位招聘考试真题2024.docx VIP
- 第十章 分式(小结与思考)(单元复习课件)-2023-2024学年八年级数学下册同步课堂(苏科版).pptx VIP
- 儿童故事绘本《嘻哈农场-吱咕、吱咕、嘎》.ppt VIP
- BSEN206-2013欧标欧洲规范.pdf VIP
- 2025年山东发展投资控股集团有限公司人员招聘笔试备考试题含答案详解.docx VIP
- 第二届全国健康照护行业职业技能竞赛(健康照护师)理论试题库-下(判断题汇总).docx VIP
- 2025年人工智能训练师(五级)初级资格理论考试练习题库(460题)含答案.docx VIP
- 重庆市西南师大附中高一上学期期末考试(化学).doc VIP
- 一种人工沙滩.pdf VIP
- 广汽丰田C-HR EV_车型手册电子版下载_非汽车用户车主车辆使用操作驾驶说明书.pdf VIP
文档评论(0)