- 9
- 0
- 约2.95千字
- 约 59页
- 2023-05-16 发布于广东
- 举报
第二章 大数据采集;数据采集基础;;利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程。;数据采集基础;传统数据采集;大数据采集;大数据采集;大数据采集;大数据收集;;大数据采集架构;大数据采集架构;大数据采集架构;大数据采集架构;大数据采集架构;;互联网数据中沉淀着大量能反映用户偏好倾向、事件趋势等的相关信息。更重要的是,互联网数据均是以共享和开放的形式存放于互联网中的,因此互联网数据采集的成本较低。常用的数据采集方式为APP端数据采集和web端数据采集。;APP端数据收集;APP端数据收集;APP端数据收集;APP端数据收集;网络爬虫技术;网络爬虫技术;网络爬虫技术;网络爬虫工作流程共4步,分别是
第三步:从待抓取URL队列中取出待抓取URL,解析DNS,并且得到主机的ip地址,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。;网络爬虫工作流程共4步,分别是
第四步:分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。;抓取策略;在爬虫系统中,待抓取URL队列是很重要的一部分。同时待抓取URL队列中的URL排序也是一个很重要的问题。网络爬虫的抓取策略是指在网络爬虫系统中决定URL在待抓取URL队列中排序顺序的方法。;在爬虫系统中,待抓取URL队列是很重要的一部分。同时待抓取URL队列中的URL排序也是一个很重要的问题。网络爬虫的抓取策略是指在网络爬虫系统中决定URL在待抓取URL队列中排序顺序的方法。;在爬虫系统中,待抓取URL队列是很重要的一部分。同时待抓取URL队列中的URL排序也是一个很重要的问题。网络爬虫的抓取策略是指在网络爬虫系统中决定URL在待抓取URL队列中排序顺序的方法。;在爬虫系统中,待抓取URL队列是很重要的一部分。同时待抓取URL队列中的URL排序也是一个很重要的问题。网络爬虫的抓取策略是指在网络爬虫系统中决定URL在待抓取URL队列中排序顺序的方法。;互联网中的网页信息经常更新,而网络爬虫程序须在网页更新后,对这些网页进行重新爬取。常见的网页更新策略包括用户体验策略、历史数据策略以及聚类分析策略等。;??联网中的网页信息经常更新,而网络爬虫程序须在网页更新后,对这些网页进行重新爬取。常见的网页更新策略包括用户体验策略、历史数据策略以及聚类分析策略等。;按网络爬虫功能可以分为批量型爬虫、增量型爬虫和垂直型爬虫三类。;按网络爬虫系统结构和实现技术可以分为通用网络爬虫、聚焦网络爬虫、深层网络爬虫、分布式网络爬虫等方法。;按网络爬虫系统结构和实现技术可以分为通用网络爬虫、聚焦网络爬虫、深层网络爬虫、分布式网络爬虫等方法;网络爬虫技术;按网络爬虫系统结构和实现技术可以分为通用网络爬虫、聚焦网络爬虫、深层网络爬虫、分布式网络爬虫等方法;按网络爬虫系统结构和实现技术可以分为通用网络爬虫、聚焦网络爬虫、深层网络爬虫、分布式网络爬虫等方法;b)对等式:
hash算法:分配待抓取的URL至不同的服务器
抓取服务器:负责实际的网页下载工作,;文本分词是将字符串文本划分为有意义的单位的过程,如词语、句子或主题。
中文分词也称为切分,是将中文文本分割成若干个独立、有意义的基本单位的过程。中文分词的准确度会直接影响搜索结果的相关度排序。
分词算法的基本原理是根据输入的字符串文本进行分词处理、过滤处理,然后输出分词后的结果,包括英文单词、中文单词以及数字串等一系列切分好的字符串。;现有的中文分词方法可分为三大类,即基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。;现有的中文分词方法可分为三大类,即基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。;现有的中文分词方法可分为三大类,即基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。;文本数据处理;1. 词典:
chas.dic(汉字字典)
units.dic(中文单位词语)
words..dic(自定义词典): 存储自定义词条,作为新名词、专有词的判断。;2. 匹配算法
简单最大匹配:从待分词文本的左边开始,列出所有可能的分词结果。;
“研究大数据”的复杂最大匹配算法的分词结果为:
研|究|大
研|究|大数
研究|大|数
研究|大|数据
研究|大数|据
研究大|数|据
…;3. 消除歧义
MMSEG词算法根据汉语语言的基本成词习惯提出了四个规则进行过滤,直到只有一种结果或者第四个规则使用完毕。这四种规则为:
规则1: 备选词组合的最大匹配规则(maximun matching)
规则2: 备选词组合的平均词长最大规则(largest average word length)。
规则3: 备选词组合的词长变化最小规
您可能关注的文档
最近下载
- 管理学第六版王凤彬课后习题答案.docx VIP
- 2026 OpenClaw“养龙虾”必备入门课件.pptx
- JB∕T 14579-2023 滚动轴承 球面滚子.pdf
- 2026年江苏城乡建设职业学院单招职业技能测试模拟测试卷附答案.docx VIP
- 2025年互联网营销师用户激活与品牌故事传播专题试卷及解析.pdf VIP
- 2024年黑龙江旅游职业技术学院单招职业适应性测试模拟试题及答案解析.docx VIP
- GB 46031-2025《可燃粉尘工艺系统防爆技术规范》深度解读.pptx VIP
- 中国国家博物馆-研学手册.pdf
- GB50303-2015 建筑电气工程施工质量验收规范.docx VIP
- 啤酒瓶盖自动分拣机设计.docx VIP
原创力文档

文档评论(0)