- 1
- 0
- 约3.34千字
- 约 15页
- 2024-01-08 发布于陕西
- 举报
数据挖掘技术DataMiningTechnology人工智能专业
项目五:热点话题数据挖掘实战任务一任务介绍任务二热点话题分词任务三调用Python实现热点话题挖掘任务四热点话题数据可视化
项目引入项目在紧锣密鼓的进行着,在学习完数据分析之后,紧接着项目进入了重中之重,利用Python进行数据挖掘。想想数据挖掘的难度和代码,我的拖延症又犯了,迟迟不愿动笔,跟师父抱怨道:“数据挖掘的代码是不是很负责,而且技术点很难”Wendy眉毛上扬:“送你几个字‘不要重新发明轮子(Don’tRe-inventingtheWheel)’。”Wendy见我不明白,又说:“数据分析时,我们采用的很多框架和技术是通用的,比如文本分词,新词发现的算法。”师父分享给我Python库的官网(),说:“学习一个新的技术,就是看官网帮助文档,跟着做一遍。”当时我还不明白师父的良苦用心,直到边学边做,顺利的完成了第一个数据挖掘项目,尝到甜头之后才体会到数据挖掘的巨大优势。
任务二热点话题分词
Wendy笑着说:这就是我们完成的第2个任务:热点话题的分词。任务描述在经过详细的任务介绍之后,我对任务的概况有了基本了解,但我依然没有方向,就追着师父问:“师父,我们应该以怎么样的步骤完成这个任务呢?”“千里之行,始于足下,任务的进行肯定是有详细的步骤的,接下来我们按照任务步骤一步一步的完成。”
任务二5.2.1文本分词文本分词是数据挖掘的基础工作,属于自然语言处理的一项技术。文本的结构通过涉及篇章、段落、句子、词、字及字符不同粒度单元,文本分词通常为句子层级单元的处理操作。不同语言有着不同的特点,其处理方式也有差异,如英文常为空格分割,存在着多重形态,而中文语言特点句子中没有词的边界,需要考虑分词粒度,同时也存在着分词标准不统一、歧义切分、新词识别等问题。
任务二5.2.1文本分词基于中文的文本分词方法,主要有基于规则的分词方法(字符串匹配分词法)、基于统计的机器学习分词方法两类。基于规则的分词方法,包含有正向最大匹配法、逆向最大匹配法、双向匹配分词法、逐词遍历法、最佳匹配法等。基于统计的分词方法,包含有基于条件随机场(CRF)算法的、基于隐马尔可夫模型(HMM)的、基于支持向量机(SVM)的、基于字标注的、基于神经网络的分词方法等。基于规则的分词方法,基本思想是按照一定的策略(最大/最长、最小/最短、正向/逆向)将待分析的字符串与词典中的词条进行匹配,如匹配成功,则分割出字符串。此方法的缺陷是对歧义和新词的处理效果。基于统计的分词方法,基本思想是利用统计机器学习的方法在已经分词的标准语料库数据集上训练学习,实现对未知文本字符串的切分。
任务二5.2.1文本分词jieba(jieba库)、Hanlp(pyhanlp库)、StandfordCoreNLP(corenlp-python库)、LTP(pyltp库)、KCWS分词器、Ansj、IK、THULAC(thulac库)、NLPIR(pynlpir库)、SnowNLP(snownlp库)等。常用的中文文本分词工具有:Keras、Spacy、Gensim、NLTK等。英文文本分词工具有:
任务二5.2.1文本分词pipinstallpyhanlp安装Hanlp命令基于Hanlp的分词基本流程和步骤:使用命令“hanlpsegment”进入交互模式,输入待分词句子“中华人民共和国生日”并分词。
任务二5.2.1文本分词使用API接口调用frompyhanlpimport*forterminHanLP.segment(中华人民共和国生日):print({}\t{}.format(term.word,term.nature))#获取单词与词性document=新华社北京5月21日不忘初心凝聚复兴伟力,携手前进共商发展大计。\中国人民政治协商会议第十三届全国委员会第三次会议21日下午在人民大会堂开幕。#自动摘要print(HanLP.extractSummary(document,3))
任务二5.2.2文本主题挖掘Gensim是用于话题模型、文档索引、相似度检索的Python库,常应用于大型语料库,主要面向自然语言处理和信息检索领域。它集成了在线隐含语义分析算法(LSA/LSI/SVD),LDA(LatentDirichletAllocation),RP(RandomProjections),HDP(HierarchicalDirichletProcess)、Word2Vec模型、Doc2Vec模型、FastText模型、TF-IDF模型、TextRank等流行算法。pipinstall--upgrade
您可能关注的文档
最近下载
- 2026年人教版化学高一上册期末质量检测卷(附答案解析).docx VIP
- 江苏省无锡市七年级下学期道德与法治期末试卷(含答案).docx VIP
- 市政施-41 导向钻孔施工记录 (自动计算).xls VIP
- ISO 23279 2017 焊缝无损检测 超声波检测 焊缝中的显示特征(中文版).pdf
- 国企领导班子2025年度民主生活会对照检查发言材料.docx VIP
- 2024版年注册安全工程师管理教材电子版[1] .pdf VIP
- 北京邮电大学《高级语言程序设计》2020-2021学年期末试卷.pdf VIP
- 户外演唱会安全保障方案设计.docx VIP
- 2020云计算技术金融应用规范容灾.pdf VIP
- 武汉大学培养方案 护理学院.docx VIP
原创力文档

文档评论(0)