- 1、本文档共18页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
AI大模型的数据基础
一、大模型对多源异构数据的渴求
大模型如GPT-3、PaLM、OPT等,其超大规模参数(百亿到万亿量级)需要海量数据支撑。单一数据源难以满足如此规模的数据需求,必须开辟多元数据源。而异构数据源的融合利用,对数据工程提出更高要求。让我们深入几类主要数据源的采集技术细节。
1.爬虫技术:数据采集
对于文本大模型而言,网络文本语料可谓取之不尽。以GPT-3模型为例,仅CommonCrawl一项就采集了4年,近800GB的原始网页数据。网络爬虫技术是采集如此规模语料的主力军。主流的爬虫系统可分为以下几类:
通用爬虫:如Scrapy、Heritrix等,采用广度优先策略,从若干SeedURL出发,递归爬取后继链接,直至达到停止条件。
通用爬虫的优势在于覆盖广,适合爬取海量页面组成通用语料库。但因缺乏领域针对性,难以保证信噪比。为了从爬取过程中动态调整策略,出现了一些智能化爬虫:
ReinforcementCrawler:将下载过程建模为强化学习,Agent通过Trial-and-Error不断优化策略,以获取高质量页面。
LearningCrawler:通过文本分类、聚类等模型自动甄别页面质量。微软曾提出ACHE等学习型爬虫框架。
此外,为了对抗反爬,通用爬虫往往需要庞大的IP代理池轮换请求,并处理好频控、Cookie等问题。对于登录页面,还需要自动化登陆流程。这也进一步提高了工程难度。
垂直爬虫:针对特定网站定制的爬虫,如新浪微博爬虫、抖音爬虫等。其特点是利用Xpath、CSS选择器等方式,精准提取页面关键信息。如判别一个微博账号是否为僵尸粉,可提取其粉丝数、互动数等特征。
垂直爬虫的价值在于,充分利用了页面结构信息,数据准度更高。同时还可根据业务逻辑设置参数,如只爬取财经新闻,营销类微博等。另外,很多反爬技术如字体反爬、JS加密都针对通用爬虫,垂直爬虫可通过定制规避。
但其缺点也很明显:适用范围窄,通用性差。每个网站要单独定制,开发成本高。如果网站频繁改版,规则还需跟着升级。这限制了其批量生产的能力。
动态爬虫:传统爬虫直接请求URL,返回HTML,只能获取静态页面。但当今很多网站采用AJAX、Vue等前后端分离技术,页面通过JS动态加载,给爬虫带来不小挑战。
为了爬取动态网页,出现了一系列动态渲染爬虫。典型方案有:
无头浏览器:HeadlessChrome/Firefox等,在无UI的环境下模拟真实浏览器行为。可执行JS获取动态内容。
WebDriver:Selenium等自动化测试框架,通过编程控制原生浏览器。如PhantomJS、Pyppeteer等。
HTTP拦截:Charles、Fiddler等抓包工具,拦截XHR请求,直接获取Ajax数据。
动态爬虫在众多场景下不可或缺,如电商比价、舆情监测都离不开其支持。动态爬虫的缺点是:启动浏览器内核开销大,性能远不及静态爬虫;被反爬风险也更大。
另外,为了提高爬虫的鲁棒性,往往需要引入代理调度中间件如Crawlera,处理好流量控制、故障转移、任务调度等。主流的分布式爬虫框架包括:Frontera、Scrapy-Redis、DistributedCrawler等。
需要强调的是,爬虫作为公网数据获取的主要手段,必须严格遵守Robots协议,合法合规地开展数据采集。对版权数据更应谨慎对待,必要时需要获得站长授权。总的来说,开发一套高质高效且合规的爬虫系统绝非易事,需要综合软硬件、法务等多方面考量。
2.语音视频大数据的采集与挖掘
随着多模态大模型的崛起,语音、视频数据的重要性愈发凸显。如微软的Tango、Meta的CAIRa等大模型,都需要大量带文本标注的语音视频数据。让我们看看这一领域的主流数据采集方案:
视频网站批量下载:YouTube、BiliBili等视频网站拥有海量UGC视频,是语音视频数据的重要来源。批量下载工具主要分两类:
站点视频下载器:You-Get、Youtube-dl等,支持数百个主流站点。缺点是不能批量下载,也不能定制视频清晰度等参数。
站点视频爬虫:利用爬虫框架如Scrapy,批量获取视频链接,结合ffmpeg等下载。可完全定制下载策略。
一般采用站点视频爬虫方式,获取元数据如标题、简介构成配套的文本语料。下载后的视频还需经过内容审核,滤除低质、违规视频。这需要借助于视频内容理解、NSFW检测等AI技术。
音视频众包:与文本类似,带标注的语音数据也离不开众包。但相比文本,语音标注的成本更高,专业性更强。需要标注人员同时具备语言和领域知识,才能准确转写专业词汇缩写等。
另一方面,语音数据的隐私性更强。众包过程必须对原始数据进行脱敏,去除涉及隐私的片段。同时要对标注人员的背景进行审查,签署保密协议。一些敏感领域的语音数据如军事
文档评论(0)