- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
互联网数据工程师-将用户信息变废为宝
互联网数据工程师:将用户信息变废为宝别小看你线上生活的每一个小动作,你在搜索框上输入的关键词、每一次随意的签到、社区里留下的不起眼的评论、在购物网站上的一次次消费……这些看起来浩瀚如恒河微沙的行为记录,在互联网公司眼里却是座宝贵的金矿。在其身后,数据挖掘和开发的工程师正日以继夜地运算着你们的信息,将之变废为宝。
裸奔时代
商人、教师、警察,谁的银行信用更好?
一次闲聊中,一位在银行负责信用卡业务的朋友给我讲了这样一个玩笑故事。在信用卡起步阶段,银行从业人员凭经验认为警察信用是最高的,教师次之,商人最差。但当银行对他们消费和还款数据的积累日渐丰富,分析结果出乎人的意料之外。
最初的结论几乎被完全推翻:警察的信用最差,教师还款最及时,但消费偏向理性很少透支,而商人信用居中,却对银行的利润贡献率最高。谁是最优质的信用卡客户的答案呼之欲出。
当然这只是个段子,权当玩笑,如果你是警察可不要见怪。现在只凭职业这个单一的维度做出判断的做法,在银行从业人员看来显然低级而不可信。为了更好对症下药,他们需要得到你更多的信息。有这想法的绝对不止银行。而且他们的胃口越变越大,恨不得掌握你24小时吃喝拉撒睡的所有信息。
在这一点上,互联网公司们完胜。看看中国互联网络信息中心(CNNIC)的《第29次中国互联网络发展状况统计报告》,截至2011年12月底中国网民规模达到 5.13亿,2011年网民平均每周上网时长为18.省略登录你的账号,你的搜索、通信、社交等等行为都一并被它整合到一起综合分析,借助它那神奇的Google AdSense,Google Analytics的处理分析,加上今年3月1日谷歌关于这些服务隐私政策统一的通告扫清你会抱怨的障碍,谷歌简直对你了如指掌。
你上 Youtube,首页可以根据你在谷歌的搜索记录分析给出更个性化的推荐,或者你在Google Music听了一首歌又被你分享或者竖了大拇指,当你转到某电商网站,后者会给你推送这整张专辑的促销信息,又或者某天你通过圈子里的好友,找到了曾有一面之缘相谈甚欢但又忘了互换联系方式的好友的好友。
“神秘配方”
你就在一次次不自觉的“主动”提供信息的同时与老大哥产生互动,在老大哥那边这叫UGC(User Generated Con-tent,也就是用户生成内容的意思)。随着时间的推移,你的UGC越丰富,老大哥对你愈加了如指掌。哪怕你觉得毫无意义的一次跳转或者签到,他们都想知道。
这就是他们的商业模式,在你看来甚至是垃圾的信息,都是他们珍视的金矿,或是核心资产,通过处理分析,将它们批量打包“卖”给视你们为潜在消费者的商家。
所以,数据挖掘和分析这门活计,几乎是从每一个互联网公司自诞生之日起就开始要做的,因为光收集你在网上任何蛛丝马迹的信息远远不够。一般而言,除非你是日砸千金的VIP,老大哥不可能一对一对你做个性化服务,因此你只能作为被整合到统一特征范畴的整体当中的一个“样本”,有时候你作为男性的一分子被挖掘和分析,而另一些时候你又作为摇滚乐爱好者当中的一员被他们研究。老大哥根据他们的经验不断炮制和修正他们的算法,从而更精准匹配你的需求。
这里牵涉两个层面的问题。一个是对你贡献的数据的收集、挖掘和分析;另一个则是,有了关于你作为“你”的总体特征之后,能用这些“知识”去做什么而快速地赚到钱呢?之所以说数据并不是万能的,就体现在第二层面的问题上,乌龙就在所难免了。
比如,某个新闻门户根据你的历史点击,记录你在每个页面上停留时间还有浏览的内容,于是后台的工作人员开始假设了:你看军事的内容比较多,那估计你是20多岁年轻男子;如果你看的八卦内容比较多,那估计你就是20多岁的女孩。基于这些假设,他们本可以针对你做个性化内容的推荐了,比如判断你是个男生,就给你推时政新闻或者是啤酒节的消息。但是,可能昨天浏览太多军事新闻只是你一时兴起,兴许今天你转而对某个明星的八卦感兴趣了。于是,你极不耐烦地把鼠标移到右上角点了叉。
因此你会发现,到现在也没有哪个新闻门户会真的这么做。他们还是会一视同仁地向你展示经由他们分类编辑好的统一的信息页面。究其原因,不只是你的兴趣是波动不定的,但说到底,还是因为他们对你了解不够透彻。虽然他们知道你昨天刚买了个电脑,但鬼知道你今天要看的就是牛仔裤呢?
所以,后台那些整日琢磨怎么从你行为轨迹上挖掘你需求的工程师们,要绞尽脑汁调整假设、修正算法。数据大牛们只要看看一个互联网公司收集数据的基础表格都可以大体知道这家公司的数据沉淀及数据应用水平了。这可是老大哥们赚钱的命根,这些数据乃至工程师们最引以为傲的算法,保密程度不亚于可口可乐的配方。
当然了,他们即便有再强大的算法,还要有劳您继续日复一日地去浏览网页、去交友通信、去签到、去下单
文档评论(0)