- 1、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。。
- 2、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
- 3、文档侵权举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
机器学习建模分析案例综述
1.1数据预处理
本文数据集是来自于数据平台,但数据平台所得数据是通过网上爬虫获得的微博情感数据,这些数据往往不标准,里面含有很多的符号,表情等噪音。如果不将其去掉,就会使得数据不准确,分析的效果变差。具体的过程如下图3.3所示。
图3.3文本预处理
(1)文本正则化
为了降低噪声数据对文本的影响,本文利用python下的re模块对中文微博文本进行正则匹配,做了以下清洗处理:
①去除网址的url链接,去掉不在所有中文、大小写字母、数字范围内的非法字符
②去掉一些微博常用的评论转发痕迹:“转发微博”、“0网络链接?”、“?展开全文c”等,将它们置为空字符
③通过爬虫爬取
您可能关注的文档
- 【“一带一路”背景下中国企业国际化存在的问题及完善建议8800字】.docx
- 【ECG信号分类研究现状分析1200字】.docx
- 【HC能源化工集团应收账款管理现状分析报告4800字】.docx
- 【HC企业应收账款管理研究背景及研究意义2600字】.docx
- 【S供电公司安全生产风险管控评价模型的构建分析2100字】.docx
- 【S省房地产市场投资用途结构变迁分析案例2400字】.docx
- 【ZPW-2000A型轨道电路邻线干扰的分类分析2800字】.docx
- 【保险公司经营绩效研究的国内外文献综述2700字】.docx
- 【变电站设计中隔离开关和高压断路器的确定和校验案例1600字】.docx
- 【不完全角度下的CT重建算法分析2100字】.docx
- 【基于5M理论的某住宅项目施工质量管理问题及改进措施13000字】.docx
- 【基于5年数据的蓝思科技主要财务指标分析(数据图表论文)12000字】.docx
- 【基于EVA的企业价值评估研究的国内外文献综述2800字】.docx
- 【基于层次分析法的双汇发展公司供应商绩效评价12000字】.docx
- 【基于卷积神经网络的肺部CT图像去噪分析2200字】.docx
- 【基于卷积神经网络的肺结节检测分析2400字】.docx
- 【基于绝对估值法和相对估值法的海天味业公司投资价值估算实例5700字】.docx
- 【基于收益法的四季沐歌企业价值评估实例14000字】.docx
- 【教学楼结构设计中的荷载计算案例1600字】.docx
- 【教学楼结构设计中的结构布置及构件选型案例1400字】.docx
最近下载
- 2025-2026学年统编版三年级道德与法治上册全册教案设计.pdf VIP
- 2025高考数学专项复习:圆锥曲线基础总结、二级结论、方法与技巧.pdf VIP
- 五年级第一次月考试卷.docx VIP
- 第九讲_语言测.ppt VIP
- 2025年新济南版七年级上册生物全册精编知识点(新教材专用).pdf
- 750t履带吊安装拆卸安装方案.docx VIP
- DB21T 3102.2-2019 锂硫电池及电池组 第2部分:安全性能要求和试验方法 .docx VIP
- 河上公-老子道德经注本.doc VIP
- 富士达cp38电器图纸.pdf VIP
- 北京市海淀区2024—2025学年度八年级上学期期中考试数学试题[带答案] .pdf
文档评论(0)