- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
8.1中文分词jieba库;;
8.1.1中文分词
所谓分词,就是将连续的字序列按照一定的规范重新组合成语义独立的词序列的过程。作为表意文字的代表——中文和字母文字的代表——英文,二者在分词的难度上存在显著差别。英文的单词之间以空格作为自然分界符,而中文只是在字、句和段上通过明显的分界符来简单划界,在词这个层面上却没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比英文要复杂、困难得多。;
【例8-1】精确模式分词。尽可能精确地切分句子。;
【例8-2】全模式分词。尽可能地将可以成词的词语都扫描出来。;
【例8-3】搜索引擎模式分词。结合以上两种模式,尽可能精确且尽可能全面的分词。;
8.1.2词性标注
词性标注是自然语言处理中的重要任务之一,它涉及对文本中每个词语所表达的语法和语义信息进行准确分类的过程。通过对文本中的词语进行词性标注,我们能够更深入地理解文本的结构和含义,为后续的文本分析和处理提供重要支持。
在词性标注中,每个词语都被赋予一个特定的词性标签,例如名词、动词、形容词等,以反映其在句子中的作用和语法功能。
常用的词性编码及含义如表8-2所示。;;
【例8-4】在使用词性标注时,需要导入jieba.posseg模块。;
【例8-5】利用词性标注对文本中的某一类词性进行筛选。;
8.1.3关键词提取
在处理文本数据时,识别关键信息是非常重要的。关键词提取是一种常见的文本处理技术,它能够自动地从文本中提取出具有重要意义的词语或短语,帮助我们快速了解文本的主题和内容。通过关键词提取,我们可以从海量的文本数据中快速发现和识别出关键信息,为后续的文本分析、信息检索等任务提供重要支持。;
关键词提取技术广泛应用于各种文本处理场景,包括文本摘要生成、舆情分析、信息检索等。
在jieba库中,常用的关键词提取算法主要包括TF-IDF和TextRank算法。TF-IDF算法是一种常用的文本特征提取方法,它通过计算词语在文档中的频率和在整个语料库中的??文档频率来评估词语的重要性。而TextRank算法是一种基于图的排序算法,它利用词语之间的相互关系构建图,并通过迭代计算词语的权重来确定关键词。;
【例8-6】TF-IDF算法。;
运行结果如下:;
【例8-7】TextRank算法。;
运行结果如下:;
8.1.4用户词典支持
在分词过程中,我们可以使用jieba.add_word()函数将新词语添加到分词词典中,也可以指定自己预定义的词典,来帮助jieba划分不易识别的词语,提高开发效率。
;
【例8-8】引入新词的用法。;
【例8-9】将“张教授”和“信息工程系”写入到“mydict.txt”文本文件中并导入到jieba中。;
8.2词云(wordcloud)库;
对于wordcloud库的安装,我们可以在文件下载路径的目录中执行命令pipinstallwordcloud。当我们需要使用时,仅需在代码中importwordcloud(导入库)即可。wordcloud库中常用的函数及参数如表8-3所示。;;
8.2.1词语词频统计
在通过词云更加清晰直观地获取文本中的信息时,我们需要对文本中的词语词频进行统计。首先,引用习近平总书记在重庆召开新时代推动西部大开发座谈会所发表的内容中的一段作为我们的分析文本并写入“Test_text.txt”文本中,如图8-1所示。;;
【例8-10】词频统计。
【参考代码】;
8.2.2词云的可视化展示
有了包含词语和词频的词典后,我们可以对其进行词云的可视化展示,具体如下:
【例8-11】制作词云。;
程序运行完毕后,会生成如图8-2所示的词云。;
8.2.3自定义配置
词云自定义配置可以涵盖诸多方面,如字体样式、词语数量限制、词语颜色设置等,通过灵活运用这些配置选项,我们可以创造出形态各异、富有个性的词云图。下面将介绍如何利用这些配置选项实现词云图的个性化定制,为我们的文本数据赋予更加出色的表现力。
我们利用枫叶图(图8-3)来为词云更改形状遮罩,同时将字体改为楷体。具体代码见例8-12。;;
【例8-12】自定义词云。;
输出的图片如图8-4所示。;
8.3社交关系网络分析networkx库;
安装networkx需在系统命令行中执行命令pipinstallnetworkx。networkx库中的主要函数如表8-4所示。;;
【例8-13】尝试绘制社交关系网络图。;
最终我们得到的结果如图8-5所示。;
8.4中文文本分析基础与相关库的应用实例;;
您可能关注的文档
- 《移动机器人原理与技术》_第五章.ppt
- 《程序设计综合实践》_第6章 波士顿房价预测问题-第8次课.pptx
- 《Python语言程序设计基础》_第9章.pptx
- 《Python语言程序设计基础》_第4章 (2).pptx
- 《移动机器人原理与技术》_第三章.ppt
- 《UG NX12》.0机电产品三维数字化设计实例教程_曲面造型设计.ppt
- 《UG NX12》.0机电产品三维数字化设计实例教程_CAD技术-第一次课.ppt
- 外企特种设备安全培训课件.pptx
- 外企安全培训材料.pptx
- 外交安全教育培训课件.pptx
- 2025年及未来5年摩卡奶油蛋糕项目市场数据调查、监测研究报告.docx
- 2025年及未来5年多用切药机项目市场数据调查、监测研究报告.docx
- 2025年及未来5年铜帽机项目市场数据调查、监测研究报告.docx
- 2025年及未来5年四驱专用全合成多功能润滑脂项目市场数据调查、监测研究报告.docx
- 2025年及未来5年钢板式机床防护罩项目市场数据调查、监测研究报告.docx
- 2025年及未来5年智能无功功率自动补偿控制器项目市场数据调查、监测研究报告.docx
- 2025年及未来5年纵跳测试仪项目市场数据调查、监测研究报告.docx
- 2025年及未来5年得力仪尺项目市场数据调查、监测研究报告.docx
- 2026年国家公考《申论》题(行政执法).pdf
- 2026年国家公务员考试《行测》地市级试题及答案.docx
原创力文档


文档评论(0)