- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
NLP的Python应用 在使用之前需要安装NLTK,它可以在以下命令来安装: pip install nltk 在Python命令提示符下编写以下命令来导入它: import nltk 现在导入NLTK后,还需要下载所需的数据。 它可以在Python命令提示符下通过以下命令完成 : nltk.download() 分词 它可以被定义为将给定文本即字符序列分成称为Token的较小单元的过程。Token可以是单词,数字或标点符号。以下是分词一个简单示例: 输入: Mango,Banana,Pineapple and Apple all are Fruits. 输出: 词干 由于语法原因,文字会有很多变化,这意味着必须处理像:democracy, democratic 和 democratization 等不同形式的相同词汇。机器非常需要理解这些不同的单词具有相同的基本形式。 通过这种方式,在分析文本的同时提取单词的基本形式将会很有用。 在Python NLTK模块中,有一些与词干相关的包。 PorterStemmer包 LancasterStemmer包 SnowballStemmer包 词元化 词性还原也可以通过词形化来提取单词的基本形式。它基本上通过使用词汇的词汇和形态分析来完成这项任务,通常旨在仅删除变元结尾。 例如,如果提供单词saw作为输入词,那么词干可能会返回单词s,但词形化会尝试返回单词see。 块化 将数据分割成块,它是自然语言处理中的重要过程之一。 分块的主要工作是识别词类和短语,有两种类型的组块。 类型如下: 上分块 在这个组块过程中,对象,事物等向更普遍的方向发展,语言变得更加抽象。 下分块 在这个组块过程中,对象,事物等朝着更具体的方向发展, 更深层次的结构将进行仔细检查。 实现名词短语分块 第1步 - 在这一步中,需要定义分块的语法。 它将包含需要遵循的规则。 第2步 - 在这一步中,需要创建一个块解析器。 它会解析语法并给出结果。 第3步 - 在最后一步中,输出以树格式生成。 词袋(BOW)模型 词袋,英文为:Bag of Word(BoW) ,它是自然语言处理中的一个模型,基本上用于从文本中提取特征,以便文本可用于建模,以便在机器学习算法中使用。 将文本数据转换为数值数据称为特征提取或特征编码。 词袋(BOW)模型例子 句子1 - We are using the Bag of Words model. 句子2 - Bag of Words model is used for extracting the features. 现在,通过考虑这两句子,有以下13个不同的单词 : we are using the bag of words model is used for extracting features 现在,需要使用每个句子中的单词计数为每个句子建立一个直方图: 子句1 ? [1,1,1,1,1,1,1,1,0,0,0,0,0] 子句2 ? [0,0,0,1,1,1,1,1,1,1,1,1,1] 词频-逆文档频率 词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)。 每个单词在文档中都很重要。统计数据有助于理解每个词的重要性。 词频(TF)衡量每个单词出现在文档中的频率。 它可以通过将每个词的计数除以给定文档中的词的总数来获得。 逆文档频率(IDF)是衡量在给定的文档集中这个文档有多独特的一个单词。要计算IDF和制定一个特征向量,需要减少一些常见词的权重并权衡稀有词。 主题建模 文档被分组为主题。 主题建模是一种揭示给定文档集合中抽象主题或隐藏结构的技术。可以在以下场景中使用主题建模技术: 文本分类 推荐系统 主题建模算法 (1)LDA(Latent Dirichlet Allocation)算法。 (2)潜在语义索引(Latent Semantic Indexing,LSI) (3)非负矩阵分解(Nonnegative Matrix Factorization,NMF): 时间序列数据分析 时间序列数据表示处于一系列特定时间间隔的数据。 使用以下命令安装Pandas: pip install pandas Pandas可以执行以下操作: 使用pd.date_range包创建一系列日期 通过使用pd.Series包对带有日期数据进行索引 使用ts.resample包执行重新采样 改变频率 处理时间序列数据步骤 导入以下软件包: import numpy as np import matplotlib.pyplot as plt import pandas as pd
您可能关注的文档
最近下载
- 三生三世(C调吉他弹唱谱,张杰)吉他曲谱吉他弹奏吉他图谱.pdf VIP
- 学法大视野数学七年级上册(湘教版)答案.pdf VIP
- 马克思主义政治经济学概论(第二版)第六章.ppt VIP
- 南京天安锅炉安装有限公司锅炉安装通用工艺文件.doc VIP
- 寺院财务制度管理制度.docx VIP
- 超星尔雅学习通《智驭未来AI工具辅助高效学习与科研(天津师范大学)》2025章节测试附答案 .docx VIP
- 24J331 地沟及盖板建筑图集.docx VIP
- Unit 3 English around the World Topic 1 Section C 课件 (共25张PPT)英语仁爱版九年级上册(含音频+视频).pptx VIP
- 青春期身体变化.ppt VIP
- 先锋520K使用说明书.pdf
文档评论(0)