- 1、本文档共52页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
;;;一、 大数据时代文本数据的价值;二、 大数据文本分析方法的分类及原理;二、 大数据文本分析方法的分类及原理;; 大数据文本分析流程; 大数据文本分析流程; 大数据文本分析流程;(三)文本特征学习
词汇(实体)特征(entity extraction)
主题特征(topic extraction)
关系特征(relation extraction)
词汇(实体)特征(entity extraction)
词汇的含义及使用习惯反映了个体心理或社会集体文化等信息,能够反映众多实体概念的特征。将文档拆解为词汇或词组的列表形式后,通过计算特定类别范畴的词汇数量及其在文本中的占比能够为研究人员提供“创作内容”(写什么)和“语言风格”(怎么写)两大特征线索.
主题特征(topic extraction)
指文本中的部分词汇集合能够表达某项共同的主题或相同的构念,有助于我们理解大数据文本的潜在结构。主题特征由主题分布和主题词列表来共同描述。; 大数据文本分析流程; 大数据文本分析流程; 大数据文本分析流程;;(一)软件安装
前往Anaconda官方网站()选取并下载对应版本;
完成下载后,启动安装程序,按照指示步骤进行勾选与点击;
完成安装,启动Anaconda-Navigator以检验安装是否成功;
Anaconda-Navigator主页面找到Jupyter Notebook。;(二)自然语言库
模块:指包含Python定义和语句的程序文件,是规模较小的代码;
包:可用来组织模块并提供一个命名层次,是若干模块的集合;
库:指完成一定功能的代码集合,由诸多函数、模块和包组成,可供用户直接调用。
Python包含标准库(直接import)+第三方库(安装后import);(二)自然语言库
结巴(jieba)分词
SnowNLP
HanLP
LTP语言技术平台
Stanford NLP
Gensim
Sklearn
;(二)自然语言库
结巴(jieba)分词
SnowNLP
HanLP
LTP语言技术平台
Stanford NLP
Gensim
Sklearn
;(一)中文语料预处理
第一步,数据导入
第二步,语料清洗
;(一)中文语料预处理
第三步,中文分词
第四步,停用词去除
;(二)中文文本表示——开源词向量介绍
中文词向量语料库(Chinese Word Vectors)
腾讯AI Lab中文词向量
百度AI开放平台;(二)中文文本表示——词向量使用示例
词向量数据加载
词向量应用;(三)文本信息提取
词典法
词典的选择与构建
词频统计
词语权重的选择
主题模型
整合文档数据并进行预处理
准备Dcoument-Term(文档-词条)矩阵
创建LDA模型对象并训练
文本分类
文本分类简介
文本分类的技术与实现
;(1)词典的选择与构建
中文常用情绪词典:
大连理工大学中文情感词汇:解决多类别情感分类、一般的倾向性分析的问题
台湾大学NTUSD简体中文情感词典:基于文本情感二元划分方法,通常作为一种基础知识
中文语义知识库:
知网(HowNet):应用于语义分析、语料库语义标注以及意义排歧等
其他资源:
清华大学李军中文褒贬义词典;(2)词频统计
第一步,读取并输出词典数据
输出前10行了解大致结构;(2)词频统计
第二步,正负情感分析
依据词典中各个词语的情感分类规则:分为“乐”、“好”、“怒”、“哀”、“惧”、“恶”、“惊”7大类,以及“PA”、“PE”、“NB”、“NJ”等21小类。首先把词语纳入各个情感小类,然后将其通过情感大类归为积极或消极情感词,以对文本进行正负情感分析;(2)词频统计
第三步,定义词频统计函数
统计并输出文本对象的长度及其积极情感词语数量、消极情感词语数量以及原词典所划分的7大类别情感词语数量;(2)词频统计
第四步,输出结果
运用定义的词频统计函数对指定文本进行分析;(3)词语权重的设定
等权重
假定文本中每个词语的重要程度相同
词频-逆文档(TF-IDF)加权
同时考虑词语在文本中出现的次数(频率)和多少文档包含该词语这两个维度,对在文本中频繁出现但并没有实际含义的词语赋予较少的权重、而给予有重要含义但出现次数较少的词语较大权重
对应变量加权
借用文本中词语与对应变量(例如,市场收益率、波动率指数等)的关系来确定词语的权重
利用第三方工具包Sklearn,jieba(结巴中文分词)以及Gensim等可实现TF-IDF算法;第一步,整合文档数据并进行预处理;第二步,准备Dcoument-Term(文档-词条)矩阵;第三步,创建LDA模型对象并训练;(1)文本分类简介
文本分类的定义
是一个典型的监督学习任务:人工标注文档类别,利用分类语料训练模型,通过模型预测文档类别。
文本
您可能关注的文档
- 《市场调查实务》课程标准(48课时).doc
- 市场调查实务教案(48学时).docx
- 管理研究方法:理论、前沿与操作 PPT 第1章 管理研究概论.pptx
- 管理研究方法:理论、前沿与操作 PPT 第2章 管理研究选题与研究设计.pptx
- 管理研究方法:理论、前沿与操作 PPT 第4章 案例研究法.pptx
- 管理研究方法:理论、前沿与操作 PPT 第5章 问卷调查法与常见统计分析.pptx
- 管理研究方法:理论、前沿与操作 PPT 第6章 实验研究法.pptx
- 管理研究方法:理论、前沿与操作 PPT 第7章 元分析法.pptx
- 管理研究方法:理论、前沿与操作 PPT 第8章 经验取样法.pptx
- 管理研究方法:理论、前沿与操作 PPT 第9章 多层线性模型分析法.pptx
文档评论(0)