NLP入门+实战必读:一文教会你最常见10种自然语言处理技术(附代码).pdf

NLP入门+实战必读:一文教会你最常见10种自然语言处理技术(附代码).pdf

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
NLP入门+实战必读:一文教会你最常见10种自然语言处理技术(附代码).pdf

大数据文摘作品 编译:糖竹子、吴双、钱天培 自然语言处理(NLP )是一种艺术与科学的结合,旨在从文本 数据中提取信息。在它的帮助下,我们从文本中提炼出适用于计算机算法的信息。从自动 翻译、文本分类到情绪分析,自然语言处理成为所有数据科学家的必备技能之一。 在这篇文章中,你将学习到最常见的 10 个 NLP 任务,以及相关资源和代码。 为什么要写这篇文章? 对于处理 NLP 问题,我也研究了一段时日。这期间我需要翻阅大量资料,通过研究报告,博客和同 类 NLP 问题的赛事内容学习该领域的最新发展成果,并应对 NLP 处理时遇到的各类状况。 因此,我决定将这些资源集中起来,打造一个对 NLP 常见任务提供最新相关资源的一站式解决方案。 下方是文章中提到的任务列表及相关资源。那就一起开始吧。 目录: 1. 词干提取 2. 词形还原 3. 词向量化 4. 词性标注 5. 命名实体消岐 6. 命名实体识别 7. 情感分析 8. 文本语义相似分析 9. 语种辨识 10. 文本总结 1. 词干提取 什么是词干提取?词干提取是将词语去除变化或衍生形式,转换为词干或原型形式的过程。词干提取 的目标是将相关词语还原为同样的词干,哪怕词干并非词典的词目。例如,英文中: 1.beautiful 和 beautifully 的词干同为 beauti 2.Good,better 和 best 的词干分别为 good,better 和 best 。 相关论文:Martin Porter 的波特词干算法原文 相关算法:在 Python 上可以使用 Porter2 词干算法 (/martin/PorterStemmer/def.txt) 程序实现:这里给出了在 pyt hon 的 stemming 库中使用 ( /mchaput/stemming/src/5c242aa592a6 d4f0e9a0b2e1afdca4fd757b8e8a/stemming/porter2.py?at=d efaultfileviewer=file-view-defau lt) Porter2 算法做词干提取的代码: #!pip install stemmingfrom stemming.porter2 import stemstem(casually) 2. 词形还原 什么是词形还原? 词形还原是将一组词语还原为词源或词典的词目形式的过程。还原过程考虑到了 POS 问题,即词语在句中的语义,词语对相邻语句的语义等。例如,英语中: 1.beautiful 和 beautifully 被分别还原为 beautiful 和 beau tifully 。 2.good , better 和 best 被分别还原为 good , good 和 goo d 相关论文 1: 这篇文章详细讨论了词形还原的不同方法。想要了解传统词形还原的工作原理必读。 (http://www.ij /do wnlo ads/icatest2015/ICATEST - 2 015127.pdf) 相关论文 2: 这篇论文非常出色,讨论了运用深度学习对变化丰富的语种做词形还原时会遇到的问题。 (/dsh/article - abstract/doi/10.1093/llc/f q w034/266979 0/Lemmatization - fo r - v ariation - rich - languages - u sing) 数据集: 这里是 Treebank - 3 数据集的链接,你可以使用它创建一个自己的词形还原工具。 (/ldc99t42) 程序实现 :下面给出了在 spacy 上的英语词形还原代码 #!pip install spacy #python -m spacy download en import spacy nlp=spacy.load(en) doc=good better best for token in nlp(doc): print(token,token.lemma_) 3. 词向量化 什么是词向量化?词向量化是用一组实数构成的向量代表自然语言的叫法。这种技术非常实用,因为 电脑无法处理自然语言。词向量化可以捕捉到自然语言和实数间的本质关系。通过词向量化,一个词 语或者一段短语可以用一个定维的向量表示,例如向量的长度可以为 100 。 例如:“Man” 这个词语可以用一个五维向量表示。 这里的每个数字代表了词语在某个特定方向上的量级。 相关博文:这篇文章详细解释了

文档评论(0)

nuvem + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档