- 0
- 0
- 约3.07千字
- 约 14页
- 2024-01-08 发布于陕西
- 举报
数据挖掘技术DataMiningTechnology人工智能专业
项目五:热点话题数据挖掘实战任务一任务介绍任务二热点话题分词任务三调用Python实现热点话题挖掘任务四热点话题数据可视化
项目引入项目在紧锣密鼓的进行着,在学习完数据分析之后,紧接着项目进入了重中之重,利用Python进行数据挖掘。想想数据挖掘的难度和代码,我的拖延症又犯了,迟迟不愿动笔,跟师父抱怨道:“数据挖掘的代码是不是很负责,而且技术点很难”Wendy眉毛上扬:“送你几个字‘不要重新发明轮子(Don’tRe-inventingtheWheel)’。”Wendy见我不明白,又说:“数据分析时,我们采用的很多框架和技术是通用的,比如文本分词,新词发现的算法。”师父分享给我Python库的官网(),说:“学习一个新的技术,就是看官网帮助文档,跟着做一遍。”当时我还不明白师父的良苦用心,直到边学边做,顺利的完成了第一个数据挖掘项目,尝到甜头之后才体会到数据挖掘的巨大优势。
任务二热点话题分词
任务二5.2.2文本主题挖掘LDA(LatentDirichletAllocation)?
任务二5.2.2文本主题挖掘LDA模型的训练全过程包含预处理数据、文档转为词向量、训练LDA模型三个基本方面:(1)LDA模型训练准备:预处理数据#创建停用词列表defst_words_list():sw=[line.strip()forlineinopen(./stopwords.txt,encoding=UTF-8).readlines()]returnsw#对中文句子分词defsegment_depart(sentence):se_depart=jieba.cut(sentence.strip())stop_wd=st_words_list()……#对文档分词ifnotos.path.exists(./pre_corpora.txt):filename=./pre_corpora.txtout_fname=./train_corpora.txt……#数据清理forlineininputs:line=line.split(\t)[1]line=re.sub(r[^\u4e00-\u9fa5]+,,line)lseg=segment_depart(line.strip())outputs.write(lseg.strip()+\n’)
任务二5.2.2文本主题挖掘(2)文档转词向量和训练LDA模型学习过程#打开语料库file_read=open(./train_corpora.txt,r,encoding=utf-8)tr=[]forlineinfile_read.readlines():le=[word.strip()forwordinline.split()]tr.append(le)#分词结果构建词典dict=corpora.Dictionary(tr)#生成语料corpus=[dictionary.doc2bow(text)fortextintr#TF-IDF转换corpus_tfidf=tfidf1[corpus]#index=similarities.SparseMatrixSimilarity(tfidf1[corpus],num_features=len(dic))#训练LDA模型lda=models.LdaModel(corpus=corpus,id2word=dict,num_topics=5)#获取主题列表tp_list=lda.print_topics(5)#输出每个主题fortopicintp_list:print(topic)
新词发现任务在新词发现中,如何确定其为一个新词(词汇边界确定),新词的基本语义是什么(新词语义),是新词发现的基本任务。确认一个词是否新词,即衡量一个字符串是否构成一个稳定的序列,从广义的角度来看,新词包含命令实体(人名、机构名、地名等)、派生词、旧词新用(新词义、新用法)等;狭义的角度来看,新词包含新派生词、新复合词、缩略语等。新词发现方法基于规则的方法,基于规则的方法其主要是根据新词的构词特征、外型特点建立规则及专业词库,通过规则匹配方法发现新词,其缺点也是于需要建立规则库等。基于统计模型的方法,基于统计模型的方法是利用统计策略提取出候选串,再利用语言知识或相关度计算排除不是新词语的串,找出新词,其缺点与基于规则的
您可能关注的文档
最近下载
- 2001款0204宝马7系735745Li_汽车使用手册用户操作指南驾驶车主车辆说明书电子版.PDF
- 交通运输行业行业深度报告:无人机反制系统-奠定低空经济安全发展之基石.pdf VIP
- 人工智能时代语言研究中的伦理问题-Ethical Issues in Language Research in the AI Era.pdf VIP
- 2025年度广东省广州市小学五年级上学期期末测试数学试题.docx VIP
- 彝学研究史.PDF VIP
- 自考英语(二)新版教材课文翻译、课后习题及考前重点笔记整理.pdf VIP
- 自考英语二复习资料一资格考试自考.pdf VIP
- 自考英语二复习资料(一).pdf VIP
- A股投资策略分析报告:矛盾统一,反无人机行业快速发展.pdf VIP
- 医院项目施工对项目的理解及重、难点分析.docx VIP
原创力文档

文档评论(0)