2017-09-17爬虫俱乐部Stata.PDF

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2017-09-17爬虫俱乐部Stata

2017-09-17 爬虫俱乐部 1 将一个汉字序列切分成一个一个单独的词 This is a cat. → [This, is, a, cat, .] 这是一只猫。→ [(这, pronoun), (是, verb), (一, numeral), (只, classifier), (猫, noun), (。, punctuation mark)] 2017-09-17 爬虫俱乐部 2 词是最小的能够独立运用的语言单位。 国际上常用的NLP 算法,深层次的语法语义分析通常都是以词作为基本单位 中文文本是由连续的字序列构成,词与词之间是没有天然的分隔符 武汉市长江大桥 → 武汉市 长江 大桥 武汉 市长 江大桥 2017-09-17 爬虫俱乐部 3 字符匹配法 分 理解法 词 统计法 2017-09-17 爬虫俱乐部 4 ustrwordcount()与ustrword() ICTCLAS/NLPIR jieba BosonNLP 2017-09-17 爬虫俱乐部 5 2017-09-17 爬虫俱乐部 6 Python命令 Stata 与 Python 交互 用file命令编辑python脚本 2017-09-17 爬虫俱乐部 7 pynlpir: 提供了NLPIR/ICTCLAS 汉语分词的Python接口。 jieba: 结巴(jieba) 是国人出的一个精品插件,可以对一段中文 进行分词,有三种分词模式,可以目前已有Python 、JAVA 、 C++和Nodejs版本。适应不同需求。 2017-09-17 爬虫俱乐部 8 curl是利用URL语法在命令行方式下工作的开源文件传输工 具。部分功能包括: • -H :自定义头信息传递给服务器 • -d :HTTP POST 方式传送数据 • -G :以get 的方式

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档