- 1
- 0
- 约1.38千字
- 约 8页
- 2024-01-08 发布于陕西
- 举报
数据挖掘技术DataMiningTechnology人工智能专业
项目五:热点话题数据挖掘实战任务一任务介绍任务二热点话题分词任务三调用Python实现热点话题挖掘任务四热点话题数据可视化
项目引入项目在紧锣密鼓的进行着,在学习完数据分析之后,紧接着项目进入了重中之重,利用Python进行数据挖掘。想想数据挖掘的难度和代码,我的拖延症又犯了,迟迟不愿动笔,跟师父抱怨道:“数据挖掘的代码是不是很负责,而且技术点很难”Wendy眉毛上扬:“送你几个字‘不要重新发明轮子(Don’tRe-inventingtheWheel)’。”Wendy见我不明白,又说:“数据分析时,我们采用的很多框架和技术是通用的,比如文本分词,新词发现的算法。”师父分享给我Python库的官网(),说:“学习一个新的技术,就是看官网帮助文档,跟着做一遍。”当时我还不明白师父的良苦用心,直到边学边做,顺利的完成了第一个数据挖掘项目,尝到甜头之后才体会到数据挖掘的巨大优势。
任务四热点话题数据可视化
任务描述在完成前面的任务工作后,我们对数据挖掘有了比较全面的认知,并梳理出项目的总体架构,师父凭借他丰富的项目经验选好一套数据挖掘方案,为了在正式开发时不掉链子,师父给我布置了最后一个任务,数据的可视化,如右图。
任务四5.4.1词云分析热点话题漂移识别系统对热点话题随时间变化的话题讨论内容进行分析,并通过可视化表示话题漂移。删除热点话题中的噪音信息。热点进行分词、去停用词。对热点话题内容构建动态词云图、词频统计图。随时间变化的话题分布图来动态显示热点话题。话题话题漂移功能要求:热点话题包含重复词、停用词、价值含量低词语等内容。jieba分词工具对热点话题文本内容进行分词。LDA模型识别热点话题。pyLDAvis可视化热点话题。热点话题分析:
任务四5.4.1词云分析词云分析#?对文本内容进行分词与预处理??def?word_segmentation(content,?stop_words):??????#?使用?jieba?分词对文本进行分词处理??????seg_list?=?jieba.cut(content)????????seg_list?=?list(seg_list)??????#?删除停用词??????user_dict?=?[?,?嘟,’哒’]??????filter_space?=?lambda?w:?w?not?in?stop_words?and?w?not?in?user_dict??????word_list?=?list(filter(filter_space,?seg_list))????????return?word_list????#?删除表情和无意义的符号??def?format_content(content):??????content?=?content.replace(u\xa0,?u?)??????content?=?re.sub(r\[.*?\],,content)??????content?=?content.replace(\n,??)??????return?content
感谢您的观看ThanksForWatching人工智能专业
您可能关注的文档
最近下载
- 《专升本英语教学课件》定语从句.ppt VIP
- 冻干机维护保养标准操作规程.doc VIP
- 环卫的安全培训课件.pptx VIP
- 小学排球兴趣小组活动记录].doc VIP
- 市政工程测量施工方案.docx VIP
- 深度解析(2026)《SJT 207.1-2018设计文件管理制度 第1部分设计文件的分类和组成》.pptx VIP
- 2025年食品安全协管站工作总结及2026年工作计划.docx
- 人教版初中九年级下册英语词汇教学课件 Unit 13【课件+视频+单词音频】 Unit 13 Section A.ppt VIP
- 新生入学安全知识考试试题.docx VIP
- 《专升本英语教学课件》主谓一致.ppt VIP
原创力文档

文档评论(0)