2017-09-17爬虫俱乐部Stata.PDF

下载文档 降价啦

108
0
约3.69千字
约 15页
2018-11-25 发布于天津
举报
版权申诉
保障服务

2017-09-17爬虫俱乐部Stata.PDF

1、本文档共15页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

2017-09-17爬虫俱乐部Stata

2017-09-17 爬虫俱乐部 1 将一个汉字序列切分成一个一个单独的词 This is a cat. → [This, is, a, cat, .] 这是一只猫。→ [(这, pronoun), (是, verb), (一, numeral), (只, classifier), (猫, noun), (。, punctuation mark)] 2017-09-17 爬虫俱乐部 2 词是最小的能够独立运用的语言单位。国际上常用的NLP 算法，深层次的语法语义分析通常都是以词作为基本单位中文文本是由连续的字序列构成，词与词之间是没有天然的分隔符武汉市长江大桥 → 武汉市长江大桥武汉市长江大桥 2017-09-17 爬虫俱乐部 3 字符匹配法分理解法词统计法 2017-09-17 爬虫俱乐部 4 ustrwordcount()与ustrword() ICTCLAS/NLPIR jieba BosonNLP 2017-09-17 爬虫俱乐部 5 2017-09-17 爬虫俱乐部 6 Python命令 Stata 与 Python 交互用file命令编辑python脚本 2017-09-17 爬虫俱乐部 7 pynlpir: 提供了NLPIR/ICTCLAS 汉语分词的Python接口。 jieba: 结巴(jieba) 是国人出的一个精品插件，可以对一段中文进行分词，有三种分词模式，可以目前已有Python 、JAVA 、 C++和Nodejs版本。适应不同需求。 2017-09-17 爬虫俱乐部 8 curl是利用URL语法在命令行方式下工作的开源文件传输工具。部分功能包括： • -H ：自定义头信息传递给服务器 • -d ：HTTP POST 方式传送数据 • -G ：以get 的方式