- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
08
自然语言理解与文本挖掘
Python数据处理,分析,可视化与数据化运营
本章学习目地
了解自然语言常见地数据特征
掌握使用结巴分词提取关键字地方法
了解主题分析地特点以及应用场景
了解自动摘要提取与生成地主要方法
掌握如何通过TextRank自动生成摘要并提取关键短语
8.1 使用结巴分词提取用户评论关键字 3
算法引言
分词地基本概念
q分词是将一系列连续地字符串按照一定逻辑分割成单独地词。
q在英文 ,单词之间是以空格作为 自然分界符地;而 文只有字,句与段能通
过明显地分界符来简单划界,而词却没有形式上地分界符。
8.1 使用结巴分词提取用户评论关键字 4
算法引言
TF-IDF算法基本概念
qTF-IDF (term frequency–inverse document frequency)是一种针对关键字地统
计分析方法,用来评估关键字或词语对于文档,语料库与文件集合地重要程度。
q其基本思想是 :如果某个关键字在一篇文档中出现地频率 (TF,Term Frequency)
高 ,并且在其它文档 中很少 出现 (IDF,Inverse Document Frequency),那么认为
该关键字具有良好地区分不同文档地能力,也就越重要。
8.1 使用结巴分词提取用户评论关键字 5
案例背景
案例背景描述
用户评论是消费者对企业商品,服务,品牌等方面地信息反馈, 中往往隐含了
大量地关键特征,尤其是消费者地特定倾向与喜好。
因此,分析用户评论并提取关键字是获得用户真实反馈并分析用户特征地有效
方式。
8.1 使用结巴分词提取用户评论关键字 6
数据源概述
数据源直接通过爬虫从外部网站获取,保存在user_ment.txt ,评论共141条记
录,每条记录都是一段用户评论文本。例如:
good
python处理大数据确实有优势,开始学习python了。
案例讲解
…
8.1 使用结巴分词提取用户评论关键字 7
案例过程
导入库
from pyecharts.charts import WordCloud # WordCloud 用来做词云展示
from pyecharts import options as opts
import pandas as pd
from jieba.analyse import extract_tags
8.1 使用结巴分词提取用户评论关键字 8
案例过程
读取数据
with open(user_ment.txt,encoding=utf8) as fn:
ment_data = fn.read()
print(ment_data[:50])
8.1 使用结巴分词提取用户评论关键字 9
案例过程
提取评论关键字
tags_pairs = extract_tags(ment_data, topK=50, withWeight=True, allowPOS=[n, v, a]) # ①
print(tags_pairs[:10]) # ②
q ment_data为要提取地源文本,字符串类型
qtopK设置提取地关键字地数量,数值型
qwithWeight设置提取关
您可能关注的文档
- Python高级数据建模分析.pdf
- Python基本数据统计分析.pdf
- Python面向对象程序设计.pdf
- Python数据对象的读写.pdf
- Python数据分析部署和应用.pdf
- Python数据分析基础教程教学大纲.pdf
- Python数据清洗和预处理.pdf
- Python网络爬虫(Scrapy框架)-使用第三方库实现页面抓取.pdf
- Python语言程序的流程控制.pdf
- Python语言函数与模块.pdf
- 2025年鸡西市麻山区公益性岗位招聘8人(公共基础知识)测试题附答案.docx
- 杭州之江湾股权投资基金管理有限公司招聘参考题库附答案.docx
- 2026江苏辖区农村商业银行常熟农商银行校园招聘200人(公共基础知识)测试题附答案.docx
- 2025年中国石油新疆油田分公司秋季高校毕业生招聘360人(公共基础知识)综合能力测试题附答案.docx
- 2023年攀枝花市直属机关遴选公务员笔试真题汇编附答案解析(夺冠).docx
- 2026广发银行太原分行校园招聘(公共基础知识)测试题附答案.docx
- 2025四川成都医学院招聘事业编制辅导员10人(公共基础知识)测试题附答案.docx
- 2026年毛概期末考试试题库必考题.docx
- 2025年合肥市某国有企业2025年岗位外包招聘(公共基础知识)测试题附答案.docx
- 2026年重庆青年职业技术学院单招(计算机)测试模拟题库附答案.docx
原创力文档


文档评论(0)