群体识别应用技术.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
目标群体识别技术 前言 谨以此文,献给致力于不断努力并执着在改变的人们! “我个人认为,新生产技术的应用,互联网大数据的应用、物联网 的应用、服务体系的打造是关键“绿城柳润良。 “信息之于民主,就如同货币之于经济。”意思就是如果信息停止 了流动,就像货币停止了流通的经济一样,民主制度将会名存实亡。 总统托马斯杰斐逊。 我想要成就的事情,就是我的人民想要做的事情;我的任务, 就是准确的发现人民的需要。涂子沛《大数据》 网络经典语录:在网络上,没有人知道你是一条狗。我不同意这 个观点,通过一定的技术手段,我们不仅能知道访客是人还是狗,我 们还能知道的更多,结合分析、推理,我们几乎可以知道访客的一切 行踪,并对这些信息进行各种合理的应用。 一、 识别的基础 现实生活中,你要熟悉、识别一个人,那么我们首先必须知道他 的基本信息,比如姓名、性别、年龄、住址等,然后通过交往比如一 起聊天、一起工作娱乐,慢慢地知道他的更多的隐私和信息,例如爱 好、行踪等。但是这个过程相当的耗时耗力,并且人往往基于各种原 因而不会对你开放更多的隐私。 稍有计算机知识的人都能理解,每台设备都有一个 IP(数字姓名), 或者 MAC(物理地址,物理姓名),通过这两个东西,就基本可以确 定这背后就是一个具体的人。这个人对网络的每一次访问,服务器其 实都可以记录下来,因为这是网络通信所必须的,比如 IP 地址、访 问时间、访问目标网址、发送的表单(其中就包括了搜索等的输入关 键词)、访问时间、用的设备类型、用的什么浏览器、看了多久、看 完后又接着去了哪里?、下载了什么东西?。 可以根据这些现有的公开的信息进行映射(一一对应),IP 地址 可以让我知道你在哪里?(甚至可以精确到几十米),你的运动轨迹。 上网时间可以知道你的上网习惯。其次,可以合理推理出一些信息, 男人和女儿关注的东西显然是不同的,所以通过你访问的网站内容, 可以判断出你的性别、年龄。通过上网时间和地点,结合地理信息系 统,可以判断出你的工作单位。通过你浏览的网页,可以判断你的文 化学历专业水平、职业。最后,可以综合多方面的信息对你进行综合 画像:如果有足够的数据,你将是一个彻底裸奔的人。我们可以再来 看一下这个过程:(1)你用你的手机或电脑上网,服务器会记录下你 的网络行为和动作以及你的 IP 或 MAC 地址。(2)如果某一次,你 又注册了一个账号,提供了你的姓名和其他身份信息,那么这个 IP 地址就会和你的姓名及其他身份信息关联。(3)某一次,你购买了一 件东西,那么你的标记上又多了一个标签,表明你对这类东西感兴趣。 (4)某天,你阅读了一篇论文,那么服务器又记录下了,你是一个 学历比较高的,在该领域有所研究的人(5)若你经常搜索了一些硫 酸、枪等词汇,网络警察和安全人员可能会马上注意到你。。。。。。当 一条一条的信息沉淀下来的时候,系统比我们自己,比我们的妈妈、 女朋友更加了解我们,并且了解的很客观,很有依据。 二、 建模 一条条的数据稍加分析,我们就能勾勒出一个人的大致形象。但 是这还不够,计算机技术特别是云存储和云计算的发展使得人类具有 更强大的能力高速处理海量数据,我们可以对基础数据进行更多的挖 掘,解读更多的数据背后的意义。 同时,基于保护隐私和安全的需要,数据的掌握者(比如百度等 一些具有广大用户,拥有庞大服务器群的公司)不可以提供访客的全 息数据(那就真的裸奔了)。所以,必须基于具体的应用来提供群体 数据,同时对个体数据进行脱敏处理。比如,工业区管理科知道奉贤 区所有要调整企业的信息,包括法人电话姓名。但是我们面对一波一 波的招商人员,我们绝对不可以把所有的资料都提供给他们。可以根 据每个招商人员的需求(每个地方招商的标准、条件、企业类型不同), 由工业区管理科把招商人员的资料传递给我们分析后认为比较匹配 的企业去,这是一种更加精准和安全的做法。 定位的模型是一种组合模型,个人信息是保密的,只能通过组合 模型筛选特定人群。定位维度目前有 11 大类型,后期会更加精确地 定位:1、性别(男、女)。2、地理位置(精确到地级市,LBS 可以 以任意一点为中心以任意半径定位)。3、年龄段。4、收入(高、中、 低)。5、上网时段(统计数据)。6、上网设备(移动、PC)。7、职业。 8、兴趣爱好。9、学历(高、中、低)。10、下载的

文档评论(0)

moon8888 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档