NLP入门+实战必读：一文教会你最常见10种自然语言处理技术(附代码).pdf

下载文档 降价啦

5
0
约9.03千字
约 13页
2018-11-08 发布于浙江
举报
版权申诉
保障服务

NLP入门+实战必读：一文教会你最常见10种自然语言处理技术(附代码).pdf

1、本文档共13页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大数据文摘作品编译：糖竹子、吴双、钱天培自然语言处理（NLP ）是一种艺术与科学的结合，旨在从文本数据中提取信息。在它的帮助下，我们从文本中提炼出适用于计算机算法的信息。从自动翻译、文本分类到情绪分析，自然语言处理成为所有数据科学家的必备技能之一。在这篇文章中，你将学习到最常见的 10 个 NLP 任务，以及相关资源和代码。为什么要写这篇文章？对于处理 NLP 问题，我也研究了一段时日。这期间我需要翻阅大量资料，通过研究报告，博客和同类 NLP 问题的赛事内容学习该领域的最新发展成果，并应对 NLP 处理时遇到的各类状况。因此，我决定将这些资源集中起来，打造一个对 NLP 常见任务提供最新相关资源的一站式解决方案。下方是文章中提到的任务列表及相关资源。那就一起开始吧。目录: 1. 词干提取 2. 词形还原 3. 词向量化 4. 词性标注 5. 命名实体消岐 6. 命名实体识别 7. 情感分析 8. 文本语义相似分析 9. 语种辨识 10. 文本总结 1. 词干提取什么是词干提取？词干提取是将词语去除变化或衍生形式，转换为词干或原型形式的过程。词干提取的目标是将相关词语还原为同样的词干，哪怕词干并非词典的词目。例如，英文中: 1.beautiful 和 beautifully 的词干同为 beauti 2.Good,better 和 best 的词干分别为 good,better 和 best 。相关论文：Martin Porter 的波特词干算法原文相关算法：在 Python 上可以使用 Porter2 词干算法 (/martin/PorterStemmer/def.txt) 程序实现：这里给出了在 pyt hon 的 stemming 库中使用 ( /mchaput/stemming/src/5c242aa592a6 d4f0e9a0b2e1afdca4fd757b8e8a/stemming/porter2.py?at=d efaultfileviewer=file-view-defau lt) Porter2 算法做词干提取的代码： #!pip install stemmingfrom stemming.porter2 import stemstem(casually) 2. 词形还原什么是词形还原？词形还原是将一组词语还原为词源或词典的词目形式的过程。还原过程考虑到了 POS 问题，即词语在句中的语义，词语对相邻语句的语义等。例如，英语中： 1.beautiful 和 beautifully 被分别还原为 beautiful 和 beau tifully 。 2.good , better 和 best 被分别还原为 good , good 和 goo d 相关论文 1: 这篇文章详细讨论了词形还原的不同方法。想要了解传统词形还原的工作原理必读。 (http://www.ij /do wnlo ads/icatest2015/ICATEST - 2 015127.pdf) 相关论文 2: 这篇论文非常出色，讨论了运用深度学习对变化丰富的语种做词形还原时会遇到的问题。 (/dsh/article - abstract/doi/10.1093/llc/f q w034/266979 0/Lemmatization - fo r - v ariation - rich - languages - u sing) 数据集: 这里是 Treebank - 3 数据集的链接，你可以使用它创建一个自己的词形还原工具。 (/ldc99t42) 程序实现：下面给出了在 spacy 上的英语词形还原代码 #!pip install spacy #python -m spacy download en import spacy nlp=spacy.load(en) doc=good better best for token in nlp(doc): print(token,token.lemma_) 3. 词向量化什么是词向量化？词向量化是用一组实数构成的向量代表自然语言的叫法。这种技术非常实用，因为电脑无法处理自然语言。词向量化可以捕捉到自然语言和实数间的本质关系。通过词向量化，一个词语或者一段短语可以用一个定维的向量表示，例如向量的长度可以为 100 。例如：“Man” 这个词语可以用一个五维向量表示。这里的每个数字代表了词语在某个特定方向上的量级。相关博文：这篇文章详细解释了