- 2
- 0
- 约3.54千字
- 约 3页
- 2023-08-23 发布于上海
- 举报
⽂本数据分析之中⽂酒店评论数据分析
⽂本数据分析
前⾔
⽂本数据分析能够有效帮助我们理解数据语料, 快速检查出语料可能存在的问题, 并指导之后模型训练过程中⼀些超参数的选择
题⽬
中⽂酒店评论数据分析
主要是判别该数据的好坏,评论为⼆分类,好评⽤1表⽰,差评⽤0表⽰
判别⽅⾯
1. 排除极端数据,判断评论的好坏有没有⼀边倒,⽐如好评占⽐90%,差评占⽐10%
2. 判断这些评论⼤部分为长⽂本还是短⽂本,或是长短相差⽆⼏
导⼊数据
import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt
更改 的呈现风格,更多参数详见
# plt /qqarticle/details
plt.style.use(fivethirtyeight)
⽤来训练的数据
#train_data
⽤来测试的数据
#test_data
train_data = pd .read_csv(./nlp/textDataProcess/cn_data/train.tsv,sep=\t)
原创力文档

文档评论(0)