人工智能基础与实践第一版课件.ppt

下载文档 降价啦

2
0
约4.13万字
约 434页
2022-07-29 发布于上海
举报
版权申诉
保障服务

人工智能基础与实践第一版课件.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

NLP的Python应用在使用之前需要安装NLTK，它可以在以下命令来安装： pip install nltk 在Python命令提示符下编写以下命令来导入它： import nltk 现在导入NLTK后，还需要下载所需的数据。它可以在Python命令提示符下通过以下命令完成： nltk.download() 分词它可以被定义为将给定文本即字符序列分成称为Token的较小单元的过程。Token可以是单词，数字或标点符号。以下是分词一个简单示例：输入： Mango，Banana，Pineapple and Apple all are Fruits. 输出：词干由于语法原因，文字会有很多变化，这意味着必须处理像:democracy, democratic 和 democratization 等不同形式的相同词汇。机器非常需要理解这些不同的单词具有相同的基本形式。通过这种方式，在分析文本的同时提取单词的基本形式将会很有用。在Python NLTK模块中，有一些与词干相关的包。 PorterStemmer包 LancasterStemmer包 SnowballStemmer包词元化词性还原也可以通过词形化来提取单词的基本形式。它基本上通过使用词汇的词汇和形态分析来完成这项任务，通常旨在仅删除变元结尾。例如，如果提供单词saw作为输入词，那么词干可能会返回单词s，但词形化会尝试返回单词see。块化将数据分割成块，它是自然语言处理中的重要过程之一。分块的主要工作是识别词类和短语，有两种类型的组块。类型如下：上分块在这个组块过程中，对象，事物等向更普遍的方向发展，语言变得更加抽象。下分块在这个组块过程中，对象，事物等朝着更具体的方向发展，更深层次的结构将进行仔细检查。实现名词短语分块第1步 - 在这一步中，需要定义分块的语法。它将包含需要遵循的规则。第2步 - 在这一步中，需要创建一个块解析器。它会解析语法并给出结果。第3步 - 在最后一步中，输出以树格式生成。词袋(BOW)模型词袋，英文为:Bag of Word(BoW) ，它是自然语言处理中的一个模型，基本上用于从文本中提取特征，以便文本可用于建模，以便在机器学习算法中使用。将文本数据转换为数值数据称为特征提取或特征编码。词袋(BOW)模型例子句子1 - We are using the Bag of Words model. 句子2 - Bag of Words model is used for extracting the features. 现在，通过考虑这两句子，有以下13个不同的单词： we are using the bag of words model is used for extracting features 现在，需要使用每个句子中的单词计数为每个句子建立一个直方图：子句1 ? [1,1,1,1,1,1,1,1,0,0,0,0,0] 子句2 ? [0,0,0,1,1,1,1,1,1,1,1,1,1] 词频-逆文档频率词频-逆文档频率（Term Frequency-Inverse Document Frequency，TF-IDF)。每个单词在文档中都很重要。统计数据有助于理解每个词的重要性。词频(TF)衡量每个单词出现在文档中的频率。它可以通过将每个词的计数除以给定文档中的词的总数来获得。逆文档频率(IDF)是衡量在给定的文档集中这个文档有多独特的一个单词。要计算IDF和制定一个特征向量，需要减少一些常见词的权重并权衡稀有词。主题建模文档被分组为主题。主题建模是一种揭示给定文档集合中抽象主题或隐藏结构的技术。可以在以下场景中使用主题建模技术：文本分类推荐系统主题建模算法（1）LDA(Latent Dirichlet Allocation)算法。（2）潜在语义索引(Latent Semantic Indexing,LSI) （3）非负矩阵分解(Nonnegative Matrix Factorization,NMF)：时间序列数据分析时间序列数据表示处于一系列特定时间间隔的数据。使用以下命令安装Pandas： pip install pandas Pandas可以执行以下操作：使用pd.date_range包创建一系列日期通过使用pd.Series包对带有日期数据进行索引使用ts.resample包执行重新采样改变频率处理时间序列数据步骤导入以下软件包: import numpy as np import matplotlib.pyplot as plt import pandas as pd