Python爬虫大数据采集与挖掘-微课视频版-第二版课件汇总曾剑平 6--12 Web信息提取与Python实现 ---互联网大数据获取技术的应用.ppt

下载文档

4
0
约2.23万字
约 293页
2025-04-17 发布于山东
举报
版权申诉
保障服务

Python爬虫大数据采集与挖掘-微课视频版-第二版课件汇总曾剑平 6--12 Web信息提取与Python实现 ---互联网大数据获取技术的应用.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Python开源库的使用Python开源库的使用“结巴”（jieba）（1）jieba.cut(sentence,cut_all=False,HMM=True)（2）加载自定义词典（3）切分词汇、同时进行词性标注（4）命名实体识别：名词、人名等相关例子见教材提纲文本预处理文本的向量空间模型文本的分布式表示文本分类及实现技术文本情感分析文本表示向量空间表示文本表示成为一个向量维度可以是词汇，也可以不是词汇概率模型表示特征选择目前，特征选择的主要方法有：信息增益、卡方统计量、互信息以及专门针对文本内容的TF-IDF等方法。这些特征选择方法可分为有监督和无监督两类，其中TF-IDF、互信息为无监督方法，卡方统计量、信息增益为有监督方法。模型表示文本的向量空间模型和线性代数中学过的向量空间模型是相同的，由基向量和坐标构成。以词汇作为维度为例，在文本表示中，基向量就是特征词汇，坐标就是词汇的权重。坐标或权重常用的计算方法有布尔权重记录特征词是否在文本中出现过TF特征项频率权重（TermFrequency）TF-IDFTF-IDF（词频率-逆文档频率，TermFrequency-InverseDocumentFrequency）TF-IDF=TF*IDFIDF=log((1+N)/(1+N(ti)))+1可避免IDF=0维度/文档ABCw1210w2001w3010w4110w5000w6110w7101基本公式平滑公式—替换基本公式的idfLog((1+3)/(1+2))+1Log((1+3)/(1+2))+1使用Python构建向量空间表示可以使用Python开源库sklearn和gensim中的相关类或函数来构造相应的向量空间表示。基本步骤#装载停用词列表#分词、去停用词#特征选择#使用TfidfVectorizer计算每个文档中每个词汇的TF-IDF值例子见教材特别强调的是：下面语句进行特征选择：解释见教材dictionary=Dictionary(texts)dictionary.filter_extremes(no_below=2,no_above=1.0,keep_n=10)扩展阅读向量的重要性提纲文本预处理文本的向量空间模型文本的分布式表示文本分类及实现技术文本情感分析VSM模型的维度是随着文本集的不同而不同，这样会导致大规模文本集处理的困难，因此，希望能将不同文本集的词汇都表示为一个等长向量。分布式表示(DistributedRepresentation)将长短不一的句子表示为一个定长向量,而向量的每个维度不再是词汇,而是代表某种语义特征。具有更加丰富的语义。文本向量表示的技术发展SVD--LDA–word2vec--Glove–FastText—Doc2vec—Elmo—GTP—BertWord2vec之后采取的是神经网络训练学习的方法。Fromgenism.models.doc2vecimportDoc2Vec,TaggedDocument准备训练语料，需要分词训练文档模型model.train使用模型进行文本分析爬虫检测技术友好爬虫遵守robots爬取频率和策略比较合理给服务器的压力小不友好爬虫不遵守robots大量并发访问给服务器带来持续压力或瞬间压力?正常用户浏览行为爬虫行为客户端IP地址同一个用户的IP一般不会变化，同一时间段内不同用户之间的IP区别比较大，IP地理分布和请求量分布也比较随机。可能通过单一IP或者代理IP访问，简单的爬虫往往是通过单一IP进行访问，但也可能不断切换使用不同的IP地址。HTTP请求Headers数据的完整性使用流行的浏览器或者站点的客户端，Headers数据由浏览器自动生成并填充，主要包括User-Agent、允许的字符集以及本地文件的过期时间等。可能会使用无Header浏览器，或者模拟浏览器进行访问，访问请求存在无Headers数据和数据内容不完整的情况。由机器生成的Header往往内容相对固定，或只是简单替换部分参数。Headers.referer数据合法性HTTP请求的Headers.referer是本站点内的页面或者友好网站，例如：搜索引擎。HTTP请求的Headers.referer可能不存在或随意填写的，不在合法范围内。请求中特定的Cookies数据的合法性每次访问使用相同的浏览器，也自然会调用相同的Cookies。不一定会使用Cookies。请求时