人工智能基础与实践第一版课件.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
NLP的Python应用 在使用之前需要安装NLTK,它可以在以下命令来安装: pip install nltk 在Python命令提示符下编写以下命令来导入它: import nltk 现在导入NLTK后,还需要下载所需的数据。 它可以在Python命令提示符下通过以下命令完成 : nltk.download() 分词 它可以被定义为将给定文本即字符序列分成称为Token的较小单元的过程。Token可以是单词,数字或标点符号。以下是分词一个简单示例: 输入: Mango,Banana,Pineapple and Apple all are Fruits. 输出: 词干 由于语法原因,文字会有很多变化,这意味着必须处理像:democracy, democratic 和 democratization 等不同形式的相同词汇。机器非常需要理解这些不同的单词具有相同的基本形式。 通过这种方式,在分析文本的同时提取单词的基本形式将会很有用。 在Python NLTK模块中,有一些与词干相关的包。 PorterStemmer包 LancasterStemmer包 SnowballStemmer包 词元化 词性还原也可以通过词形化来提取单词的基本形式。它基本上通过使用词汇的词汇和形态分析来完成这项任务,通常旨在仅删除变元结尾。 例如,如果提供单词saw作为输入词,那么词干可能会返回单词s,但词形化会尝试返回单词see。 块化 将数据分割成块,它是自然语言处理中的重要过程之一。 分块的主要工作是识别词类和短语,有两种类型的组块。 类型如下: 上分块 在这个组块过程中,对象,事物等向更普遍的方向发展,语言变得更加抽象。 下分块 在这个组块过程中,对象,事物等朝着更具体的方向发展, 更深层次的结构将进行仔细检查。 实现名词短语分块 第1步 - 在这一步中,需要定义分块的语法。 它将包含需要遵循的规则。 第2步 - 在这一步中,需要创建一个块解析器。 它会解析语法并给出结果。 第3步 - 在最后一步中,输出以树格式生成。 词袋(BOW)模型 词袋,英文为:Bag of Word(BoW) ,它是自然语言处理中的一个模型,基本上用于从文本中提取特征,以便文本可用于建模,以便在机器学习算法中使用。 将文本数据转换为数值数据称为特征提取或特征编码。 词袋(BOW)模型例子 句子1 - We are using the Bag of Words model. 句子2 - Bag of Words model is used for extracting the features. 现在,通过考虑这两句子,有以下13个不同的单词 : we are using the bag of words model is used for extracting features 现在,需要使用每个句子中的单词计数为每个句子建立一个直方图: 子句1 ? [1,1,1,1,1,1,1,1,0,0,0,0,0] 子句2 ? [0,0,0,1,1,1,1,1,1,1,1,1,1] 词频-逆文档频率 词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)。 每个单词在文档中都很重要。统计数据有助于理解每个词的重要性。 词频(TF)衡量每个单词出现在文档中的频率。 它可以通过将每个词的计数除以给定文档中的词的总数来获得。 逆文档频率(IDF)是衡量在给定的文档集中这个文档有多独特的一个单词。要计算IDF和制定一个特征向量,需要减少一些常见词的权重并权衡稀有词。 主题建模 文档被分组为主题。 主题建模是一种揭示给定文档集合中抽象主题或隐藏结构的技术。可以在以下场景中使用主题建模技术: 文本分类 推荐系统 主题建模算法 (1)LDA(Latent Dirichlet Allocation)算法。 (2)潜在语义索引(Latent Semantic Indexing,LSI) (3)非负矩阵分解(Nonnegative Matrix Factorization,NMF): 时间序列数据分析 时间序列数据表示处于一系列特定时间间隔的数据。 使用以下命令安装Pandas: pip install pandas Pandas可以执行以下操作: 使用pd.date_range包创建一系列日期 通过使用pd.Series包对带有日期数据进行索引 使用ts.resample包执行重新采样 改变频率 处理时间序列数据步骤 导入以下软件包: import numpy as np import matplotlib.pyplot as plt import pandas as pd

文档评论(0)

有谱教育资源分享 + 关注
实名认证
内容提供者

热爱生活,分享教育专业文档! 所有资料均来源于互联网公开下载资源,如有侵权,请联系管理员及时删除。

1亿VIP精品文档

相关文档