教案 Ch6.数据的进一步处理.ppt

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据的进一步处理 2. 数据处理与科学计算 NumPy ndarray matrix 作图函数 数据的进一步处理 2. 数据处理与科学计算 NumPy from pprint import pprint as pr a = numpy.arange(20) # 构造一个数组 pr(a) a = a.reshape(2,2,5) pr(a) pr(a.ndim) pr(a.size) pr(a.shape) pr(a.dtype) 通过reshape()方法将原来的数组构造为了2*2*5的数组(三个维度) ndim表示数组的维度;shape属性则为各维度的大小;size属性表示数组中全部的元素个数(等于各维度大小的乘积);dtype可查看数组中元素的数据类型 标注 字体使用 行距 背景图片出处 声明 英文 Microsoft YaHei 中文 微软雅黑 正文 1.3 本网站所提供的任何信息内容(包括但不限于 PPT 模板、Word 文档、Excel 图表、图片素材等)均受《中华人民共和国著作权法》、《信息网络传播权保护条例》及其他适用的法律法规的保护,未经权利人书面明确授权,信息内容的任何部分(包括图片或图表)不得被全部或部分的复制、传播、销售,否则将承担法律责任。 OfficePLUS 背景图片素材 OfficePLUS 点击Logo获取更多优质模板(放映模式) 数据的进一步处理 第6章 数据的进一步处理 Add Text 点击此处添加标题 Python与文本分析 数据处理与科学计算 目录 数据的进一步处理 1. Python与文本分析 结构化数据与非结构化数据 结构化数据一般是指能够存储在数据库里,可以用二维表结构逻辑来表达的数据。与之相比,不适合通过数据库二维逻辑表来表现的数据就称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。这种数据的特征在于,其数据是多种信息的混合,通常无法直接知道其内部结构,只有经过识别、以及一定的存储分析后才能体现其价值。 数据的进一步处理 1. Python与文本分析 文本分析 语言处理 模式识别 文本聚类 文本分类 两个中文文本分析工具 jieba SnowNLP 数据的进一步处理 1. Python与文本分析 文本分析中的一些基本概念 分词:是指将由连续字符组成的句子或段落按照一定规则划分成独立词语的过程。在英文中,由于单词之间是以空格作为自然分界符的,因此可以直接使用“空格(space)”符作为分词标记,而中文句子内部一般没有分界符,所以中文分词比之英文要更为复杂。 停用词:是指在文本中不影响核心语义的“无用”字词,通常为在自然语言中常见但没有具体实在意义的助词、虚词、代词,如“的”、“了”、“啊”等,停用词的存在直接增加了文本数据的特征维度,提高了文本数据分析过程中的成本,因此一般都需要先设置停用词,对其进行筛选。 词向量:为了能够使用计算机和数学方式分析文本信息,就要使用某种方法把文字转变为数学形式,这方面比较常见的解决方法就是将自然语言中的字词通过数学中向量的形式进行表示。 词性标注:就是说对每个字词进行词性归类(标签),比如“苹果”为名词、“吃”为动词等,便于后续的处理。不过中文语境下词性本身就比较复杂,因此词性标注也是一个值得深入探索的领域。 句法分析:指根据给定的语法体系下分析句子的句法结构,划分句子中词语的语法功能,并判断词语之间的句法关系,在语义分析的基础上,这是对文本逻辑进行分析的关键。 情感分析:是指在文本分析和挖掘过程中对内容中体现的主观情感性进行分析和推理的过程,情感分析与舆论分析、意见挖掘等领域有着十分密切的联系。 数据的进一步处理 1. Python与文本分析 词向量 能够衡量词汇之间的相似度 用数值矢量来表示语义 数据的进一步处理 1. Python与文本分析 词性标注 分析文本中不同词语的词性 数据的进一步处理 1. Python与文本分析 句法分析 数据的进一步处理 1. Python与文本分析 情感分析 一般用数值表示文本总体情感倾向 数据的进一步处理 1. Python与文本分析 jieba(“结巴”) 国人开发的中文分词与文本分析工具 import jieba seg_list = jieba.cut("这里曾经有一座大厦", cut_all=True) print(" / ".join(seg_list)) # 全模式 seg_list = jieba.cut("欢迎使用Python语言", cut_all=False) print(" / ".join(seg_list)) # 精确模式 seg_list = jieba.cut("我喜

文档评论(0)

188****2864 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档