- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
光环大数据--大数据培训人工智能培训
Python 中一些自然语言工具的使用的入门教程_光环大数据Python 培训
NLTK 是使用 Python 教学以及实践计算语言学的极好工具。此外,计算语
言学与人工 智能、语言/专门语言识别、翻译以及语法检查等领域关系密切。
NLTK 包括什么
NLTK 会被自然地看作是具有栈结构的一系列层,这些层构建于彼此基础之
上。那些熟悉人工语言(比如 Python)的文法 和解析的读者来说,理解自然语
言模型中类似的 —— 但更深奥的 —— 层不会有太大困难。
术语表
全集(Corpora):相关文本的集合。例如,莎士比亚的作品可能被统称为一
个 文集(corpus); 而若干个作者的作品称为 全集。
直方图(Histogram):数据集中不同单词、字母或其他条目的出现频率的统
计分布。
结构(Syntagmatic):对语段的研究;也就是全集中字母、单词或短语连续
出现的统计关系。
上下文无关语法(Context-free grammar): 由四类形式语法构成的 Noam
Chomsky 层级中的第二类。参阅 参考资料 以获得 详尽描述。
尽管 NLTK 附带了很多已经预处理(通常是手工地)到不同程度的全集,但
是概念上每一层 都是依赖于相邻的更低层次的处理。首先是断词;然后是为单
词加上 标签;然后将成组 的单词解析为语法元素,比如名词短语或句子(取决
于几种技术中的某一种,每种技术都有其优缺点);最后对最终语句或其他语法
光环大数据
光环大数据--大数据培训人工智能培训
单元进行分类。通过这些步骤,NLTK 让您可以生成关于不同元素出现情况 的统
计,并画出描述处理过程本身或统计合计结果的图表。
在本文中,您将看到关于低层能力的一些相对完整的示例,而对大部分高层
次能力将只是进行简单抽象的描述。 现在让我们来详细分析文本处理的首要步
骤。
断词(Tokenization)
您可以使用 NLTK 完成的很多工作,尤其是低层的工作,与使用 Python 的
基本数据结构来完成相比,并 没有 太 大的区别。不过,NLTK 提供了一组由更
高的层所依赖和使用的系统化的接口,而不只是 简单地提供实用的类来处理加
过标志或加过标签的文本。
具体讲,nltk.tokenizer.Token 类被广泛地用于存储文本的有注解的片断;
这些 注解可以标记很多不同的特性,包括词类(parts-of-speech)、子标志
(subtoken)结构、一个标志(token) 在更大文本中的偏移位置、语形词干
(morphological stems)、文法语句成分,等等。实际上,一个 Token 是一种 特
别的字典 —— 并且以字典形式访问 —— 所以它可以容纳任何您希望的键。在
NLTK 中使用了一些专门的键, 不同的键由不同的子程序包所使用。
让我们来简要地分析一下如何创建一个标志并将其拆分为子标志:
清单 1. 初识 nltk.tokenizer.Token 类
?1234567891011121314151617 from nltk.tokenizer import * t =
Token(TEXT=This is my first test sentence) WSTokenizer().tokenize(t,
addlocs=True) # break on whitespace print t[TEXT]This is my first
test sentence print t[SUBTOKENS][This@[0:4c], is@[5:7c],
my@[8:10c], first@[11:16c],test@[17:21c], sentence@[22:30c]]
光环大数据
光环大数据--大数据培训人工智能培训
t[foo] = bar tTEXT=This is my first
您可能关注的文档
- 普利特使用部分超募资金增资浙江普利特新材料有限公司高性能改性高分子塑料复合材料 20101124.pdf
- 实时鲁棒自动人眼状态分类.pdf
- 2013届高三知识点复习课件第二部分 专题十七鉴赏古代诗歌表达技巧.ppt
- 第十三章 财务报告.ppt
- 高二物理物体是由大量分子组成2.ppt
- 高三化学重要氧化剂和还原剂.ppt
- 高中作文教学研究必要性与必然性.ppt
- 计算机网络PPTCH10 下一代因特网.ppt
- 经济学课件Chap02像经济学家一样思考.ppt
- 九年级历史人民当家做主.ppt
- 航空发动机维修成本控制策略与2025年维修人才培养报告.docx
- 教育评价智能化转型中的智能评价与教育质量提升报告.docx
- 挖运分包合同协议.docx
- 教育评价智能化转型:2025年人工智能技术应用深度分析报告.docx
- 数字贸易规则2025:国际贸易法律风险分析与应对研究报告.docx
- 2025年云计算在智能制造领域的应用前景与解决方案白皮书.docx
- 2024-2025学年小学信息技术(信息科技)泰山版2024四年级上册教学设计合集.docx
- 特约经销合同协议.docx
- 基于云计算的2025年个性化定制家居设计软件服务模式创新报告.docx
- 2025年电子商务物流中心建设可行性研究报告.docx
文档评论(0)