DeepSeek-OCR:文字压缩革命(AI搜索优化代运营服务商).docVIP

DeepSeek-OCR:文字压缩革命(AI搜索优化代运营服务商).doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

DeepSeek-OCR:文字压缩革命(AI搜索优化代运营服务商)

DeepSeek前几天呢,发布了一篇技术报告,叫作DeepSeekOCR。

我觉得绝大部分的人都低估了这件事情,毕竟我们一般人看到这样的论文,就巴不得赶紧划走,真的看不了一点。但是大神卡帕西都亲自下场点评这个模型的重大意义,很多人都应该听说过ocr或者至少用过它的功能你,就是把图片里面的文字给提取出来,然后生成可编辑的文字,比如说我们每天都在用的微信里面的。图片提取文字功能。

就是长按图片就能提取图片里面的文字,但是deepseek的OCR看起来呢,也像个OCR,但实际的意义呢,却远超OCR的范围。简单来说,DeepSeek找到了一种利用图片去压缩文字的办法。它可以把文本压缩成原来十分之一的大小的图片。并且还能保持97%的准确率,那这有什么用呢?

最直接的呢,就是相当于给你省了十倍的钱,不仅能让大模型的运算速度快十到20倍。还能把上下文的窗口扩展十倍,简直就是革命性的。那这时候有人要问了一张普通的照片,可能通常是几百kb甚至几个mb,而一部长篇小说呢,才几百kb,显然文字的信息量或者说是信息密度比图片要高很多。那DeepSeek到底是怎么样做到让信息密度更小的图片去压缩信息密度更大的文字呢?这样不是搞反了吗?

所以今天呢,我就带大家来从零到11步一步理解一下这篇报告,很多人可能这辈子都没有读过这样的论文。会有一点点小硬核,但我尽量会用最简单的方式帮助大家去理解,更重要的是我相信在你认真听完这个视频之后呢,一定会有质的提升,视频有点长,大家可以先点赞收藏,慢慢看。好,我们正式开始。看一篇论文呢,我喜欢先看他的最终结果,最终的结论来看看这么长一篇的技术报告,他到底干成了一件什么事情。

我们来看这一张图,直接来看这一行。它是什么意思呢?就是说在压缩接近十倍的情况下。它的准确率能达到97%左右deepseek所说的压缩十倍是什么意思?97%的准确率又是什么意思呢?好,我们来解释一下,现在假设我们有1000个文字token。你可以简单理解成1000个字。然后我们把对应的这1000个字的这个文本截个图作为图片发送给这个deepseek新打造的这个系统。

论文里面呢叫做DeepSeekencoder我们这里先不管它。然后这个encoder呢,就会把这个图转化成100个视觉的token。我们看到这100个视觉的token相当于之前1000个文字的token其实就是算压缩十倍了。然后呢,我们可以通过大模型将这100个视觉的token还原成文字的token。专业术语呢?叫做解码,最终呢可以还原出来最初的那1000个文字这里还原以后的1000个文字跟最初的1000个文字对比。这个准确率就是能达到97%。这个十倍跟97%就是这个意思。我们来简单总结一下这个流程,因为这个流程比较重要,最初呢,我们有1000个文字。

然后利用截图工具把它截成高清的图片。然后送入到deepseek的DeepSeekencoder这个编码器里面。它会把1000个文字的token呢转化成100个视觉的token。然后呢,我们再把这个100个视觉的token放到大模型的解码器里面,然后还原出1000个文字的token。这就是这篇文章,这个系统的主要的流程,看懂了上面这个流程的步骤之后,你就可以理解论文里面这张图了。图三。它展示了模型结构和主要的处理过程,输入呢是一张充满文字的这个论文的图片。

然后我们把这个图片呢切割成一块块像素16乘以16大小的小的图片块,把这些小的图片块输入到这个DeepSeekencoder里面去。DeepSeekencoder里面一通操作,这个虚线框里面呢,就是DeepSeekencoder的整个的这个模型的结构。我们可以暂时忽略这里面的细节,因为后面我们会重点去讲。encoder到这里为止,它的输出呢,就是我们之前说的视觉的token然后呢,我们还可以输入我们想要的这个提示词。因为提示词呢是这个文本的token。

刚刚输出的这个呢是视觉token两类token呢,可以并在一起发送给最后的这个解码器。比如我们来举个例子,比如说这个提示词呢,可以是将这张图片转化成markdown格式。这个解码器呢,就是我们比较熟悉的一个普通的这个transformer架构的模型。论文里面呢,用的是这个30亿的参数,5.7亿的这个激活参数的moe模型也可以简单理解成我们平时是把提示词直接输入给大模型的。但是现在呢,我们在提示词当中又加入了这个视觉的token。那还有一个问题,我们之前说了文本的信息密度其实是比图片的信息密度要高的。

那为什么我们能将1000个

文档评论(0)

百收网 + 关注
实名认证
文档贡献者

百收科技旗下产品:百收网,关注我更多分享

1亿VIP精品文档

相关文档