“今日头条”的技术逻辑:网络爬虫+矩阵筛选.pdfVIP

“今日头条”的技术逻辑:网络爬虫+矩阵筛选.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

前王成军/南京大学新闻传播学院助理研究员,奥美数据科学实验室主任,计算传播学中研究员

沿

O

Z

H“今口日头条”的技术逻辑

网络爬虫+矩阵筛选

文王成军

随着今日头条的崛起,聚合媒体开始进入公众的未来的新闻行业将会更专业、更高屋建瓴。他们通过

视野。这类媒体都是基于数据挖掘技术,筛选和推荐对信息或数据的系统收集、清洗和分析为公众提供最

新闻:“它为用户推荐有价值的、个性化的信息,提供为全面有用的信息群。在未来的新闻世界里,采、写、

连接人与信息的新型服务,是国内移动互联网领域成编、评将因数据收集、数据清洗、数据分析、新闻可视

长最快的产品服务之一”。自从2012年3月创建以化、新闻叙事而变得非常不同。而这些变革新闻行业

来,今日头条至今已经累计激活用户31亿,日活跃的力量,我们将其称之为“数据新闻”。在未来,新闻

用户超过3000万。本文尝试从技术层面分析今日头行业建立和维系的数据库将成为人类历史上信息最

条的传播机制和相关原理。丰富的战略资源。

未来新闻的思想实验为我们提供了一个观察媒

一、未来新闻:数据库支撑的新闻业态介转型的视角:现在的新闻媒体只有适应未来媒体的

传播技术的变革,使得信息流动突破了渠道和技要求才能生存。传播技术必须从单纯的信息传播转

术的障碍。通讯产品将变得非常廉价,人们可以随时变为信息的挖掘和动态展现才能在未来的新闻市场

随地获取任何不妨碍公众利益和个人隐私的信息。占据一席之地。

政府、上市公司、社会组织信息随时随地可以流动到

每一个人那里,专家和学者对于不同信息的解读也可二、网络爬虫:抓取新闻的基础技术

以即时到达每一个个体。今日头条是一个典型的数据新闻平台。从今日

这些来自四面八方的海量信息远远超过个人的头条的关注重点来看,它具有非常强烈的媒体特点,

承载能力。人类从信息时代进入注意力时代。换句专注于对信息的把关和推荐。因而,这种媒体的属性

话说,谁赢得了受众的注意力,谁就赢得了未来。决定了它的公共性价值要为公众提供有价值的新闻

注意力在现代和未来社会成为稀缺的资源。由产品。这种形式的平台一直存在着,例如谷歌、百度

于个人不具备核实信源、分析信息的专业能力,市场等搜索引擎都有自己的新闻服务。其新闻来源除了

需要一群具有公信力的群体帮助他们来遴选信息、分合作媒体之外,很大一部分来自于搜索引擎的网络爬

析信息、提供观点。当然,专家、学者、工程师、数据分虫。网络爬虫从互联网各个角落收集信息,将其中的

析师都可以担任信息获取、清洗、分析和传播的角新闻类信息进行汇总。汇总的信息经过基于机器学

色。但是,因为社会分工不同,他们都无法替代作为习的分类和排序,划分出每一个时刻的热点新闻。数

信息生产者的媒体从业人员,只有记者才能第一时间据新闻平台区别于一般的数据新闻,其主要功能在于

提供信息本身、还有以信息作为基础产生的观点和见提供一个媒介平台,展示一系列信息,而不是一条信

解。作为一群信息的嘹望者,未来的新闻从业者专注息。

于新闻信息的发现。他们不同于今日的新闻人,因为

文档评论(0)

素珍 + 关注
实名认证
文档贡献者

好文件大家都可以分享

1亿VIP精品文档

相关文档