- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
NLP入门+实战必读:一文教会你最常见10种自然语言处理技术(附代码).pdf
大数据文摘作品
编译:糖竹子、吴双、钱天培
自然语言处理(NLP )是一种艺术与科学的结合,旨在从文本
数据中提取信息。在它的帮助下,我们从文本中提炼出适用于计算机算法的信息。从自动
翻译、文本分类到情绪分析,自然语言处理成为所有数据科学家的必备技能之一。
在这篇文章中,你将学习到最常见的 10 个 NLP 任务,以及相关资源和代码。
为什么要写这篇文章?
对于处理 NLP 问题,我也研究了一段时日。这期间我需要翻阅大量资料,通过研究报告,博客和同
类 NLP 问题的赛事内容学习该领域的最新发展成果,并应对 NLP 处理时遇到的各类状况。
因此,我决定将这些资源集中起来,打造一个对 NLP 常见任务提供最新相关资源的一站式解决方案。
下方是文章中提到的任务列表及相关资源。那就一起开始吧。
目录:
1. 词干提取
2. 词形还原
3. 词向量化
4. 词性标注
5. 命名实体消岐
6. 命名实体识别
7. 情感分析
8. 文本语义相似分析
9. 语种辨识
10. 文本总结
1. 词干提取
什么是词干提取?词干提取是将词语去除变化或衍生形式,转换为词干或原型形式的过程。词干提取
的目标是将相关词语还原为同样的词干,哪怕词干并非词典的词目。例如,英文中:
1.beautiful 和 beautifully 的词干同为 beauti
2.Good,better 和 best 的词干分别为 good,better 和 best 。
相关论文:Martin Porter 的波特词干算法原文
相关算法:在 Python 上可以使用 Porter2 词干算法
(/martin/PorterStemmer/def.txt)
程序实现:这里给出了在 pyt hon 的 stemming 库中使用
( /mchaput/stemming/src/5c242aa592a6
d4f0e9a0b2e1afdca4fd757b8e8a/stemming/porter2.py?at=d
efaultfileviewer=file-view-defau lt)
Porter2 算法做词干提取的代码:
#!pip install stemmingfrom stemming.porter2 import stemstem(casually)
2. 词形还原
什么是词形还原? 词形还原是将一组词语还原为词源或词典的词目形式的过程。还原过程考虑到了
POS 问题,即词语在句中的语义,词语对相邻语句的语义等。例如,英语中:
1.beautiful 和 beautifully 被分别还原为 beautiful 和 beau tifully 。
2.good , better 和 best 被分别还原为 good , good 和 goo d
相关论文 1: 这篇文章详细讨论了词形还原的不同方法。想要了解传统词形还原的工作原理必读。
(http://www.ij /do wnlo ads/icatest2015/ICATEST - 2 015127.pdf)
相关论文 2: 这篇论文非常出色,讨论了运用深度学习对变化丰富的语种做词形还原时会遇到的问题。
(/dsh/article - abstract/doi/10.1093/llc/f q w034/266979 0/Lemmatization - fo
r - v ariation - rich - languages - u sing)
数据集: 这里是 Treebank - 3 数据集的链接,你可以使用它创建一个自己的词形还原工具。
(/ldc99t42)
程序实现 :下面给出了在 spacy 上的英语词形还原代码
#!pip install spacy
#python -m spacy download en
import spacy
nlp=spacy.load(en)
doc=good better best
for token in nlp(doc):
print(token,token.lemma_)
3. 词向量化
什么是词向量化?词向量化是用一组实数构成的向量代表自然语言的叫法。这种技术非常实用,因为
电脑无法处理自然语言。词向量化可以捕捉到自然语言和实数间的本质关系。通过词向量化,一个词
语或者一段短语可以用一个定维的向量表示,例如向量的长度可以为 100 。
例如:“Man” 这个词语可以用一个五维向量表示。
这里的每个数字代表了词语在某个特定方向上的量级。
相关博文:这篇文章详细解释了
您可能关注的文档
最近下载
- 办公家具采购方案(技术方案).pdf
- 木材常规干燥工艺干燥工艺.ppt
- 【鲁教版】七年级数学下期末试卷(及答案).doc
- 【结题报告】《小学语文阅读教学深度融合核心素养培育研究》结题报告.pdf
- 2023年湖南工商大学公共课《中国近代史纲要》期末试卷A(有答案).docx VIP
- 商业银行营业场所技防设施、设备使用管理办法(最新).doc VIP
- AP微积分AB 2014年真题 附答案和评分标准 AP Calculus AB 2014 Real Exam with Answers and Scoring Guidelines.pdf VIP
- 成人机械通气患者俯卧位护理-中华护理学会团体标准.pptx VIP
- 严蔚敏《数据结构》(C语言版)典型习题和考研真题详解.pdf VIP
- 中国公民健康素养66条讲座课件.ppt
文档评论(0)