最近,滴滴他们全家都被下架了。除了阳奉阴违赶去纳斯达克投胎以外,数据安全、隐私保护这些多数人既关心又不了解的话题,也被推上了风口浪尖。正好前些天,金星老师要搞个新节目,导演组找到我,居然也想聊聊大数据、用户隐私这方面的事儿。当然,鸡一嘴鸭一嘴地控诉大数据罄竹难书的罪恶,我兴趣不大。

全民关注数据和隐私,当然是好事,只是这里技术和行业知识太多,不容易透彻理解。因此,市面上惊悚的传言频出,似乎搞大数据的都是三头六臂的妖精。作为一名战斗在数据一线的仁波切,我感到有必要挺身而出,以我在宗教界相声说的最好的工程师身份,给大家把这方面的事儿讲明白。

弄明白这玩意有啥用?普通人,可以搞清泄露什么隐私会让自己破财招灾,免得不明就里地疑神疑鬼,心脏病和痔疮都犯了;对立法专家来说,可以稍微理清法规的边界和作用,别总想着利用手里的图章,靠加紧箍咒渔利;对想挣钱的来说,那这里面日进斗金的机会多了去了。当然,在学习本文之外,您还得同时精研刑法,先找好退身步。

首先,大家得明白一个道理:如今的世界,早已是数字世界第一性的了。利用用户数据提供个性化服务,是绝对无法逆转的大趋势。如果把数据的使用都停掉,其后果比全国停用电力还要严重。

既然数据是提供个性化服务的,那么什么样的数据应用,是靠谱和无风险的呢?其实,这里有个明确的标准:你的数据,只能在同一个场景下服务于你本人。打个比方,快递可以拿到你的地址电话,但这是给你服务用的,只要不把你的数据给别人,或者服务别人,那就没啥问题。

互联网也是一样,管他是腾讯、淘宝还是抖音,根据你的行为影响你看到的内容,虽然乍一看菊花一紧,但是其实用不着太紧张,它对你的隐私并没有实质性的侵害。这样的用途,今后会长期存在,没必要因噎废食。

这里隐藏的问题,在于把数据“用于服务别人”这件事该怎么界定。说起来,这在互联网上并不新鲜,您想想现在短视频的推荐系统吧,其原理基本都是去统计“看过这个视频的人还会看什么”,这不就是把其他人的数据聚合起来服务你嘛!没错,这确实是。只不过,这是把其他人统计数据用于服务你。

那么,在统计过程中,究竟有没有漏洞让你可以窥见其他某个人的具体隐私呢?如果有的话,又如何解决呢?沿着这个方向,衍生出了数据安全方面一个重要的技术方向——隐私计算。你可能听过的一些词汇,什么差分隐私啊、联邦学习啊,都是这个方向里的热点,这些话题我们改天专门再谈。

说完了什么算正常,再回到正题:如今的互联网,到底有没有数据黑产呢?那肯定有啊!不过这些黑产,可能跟多数人理解的不太一样。

跟数据相关的黑产门道,简直是五花八门,一抬脚踩死一片。归纳总结一下,数据黑产可以分成两个大类:一是直接从你身上骗钱;二是借你的身份去干点坏事。

从你身上骗钱,又有两种不同的思路,先说第一种。比方说,有人拿了你的电话号码和家庭住址,怎么挣钱呢?很简单,往你家里发个货到付款的快递,别收太贵了,比方说50块,家里人不知买的啥,糊里糊涂就交钱收了。包裹里的小物件一块钱,快递费三块钱,那还挣你40多呢!您说家里人也不一定收?就算只有百分之二十的人收,人家都挣大了!

可以看出,这是一种“广撒网”的“轻诈骗”模式,可以很容易把大量用户信息变现。这类模式需要的信息,是那些“可以找到你”的信息,比方说住址、电话、email之类。这类信息有个统一的名字,大概您听说过,叫“个人可定位信息(PersonalIdentifiable Information, PII)”。

该怎么防范呢?这种广撒网的模式需要用到的PII信息,在如今各国的用户隐私保护法规下,几乎都已经被禁止传播和使用了。在我国,贩卖五十条以上的手机号这类信息,就有可能有刑事责任,所以这种风险在总体上是可控的。就算是信息真被泄露了,人家是广撒网嘛,一般也不会把你一把薅死,倒也犯不着忧心忡忡。当然,自己的PII信息,还是要看住了,别轻易给别人。

而更生猛的模式,“广撒网”就不够了,还得“深挖洞”。这就要用到用户身份以外的“行为数据”了。简单来说,就是深入分析你平常的网络行为,找到你的软肋之后,一刀下去,砍你个全身不遂。

这个路数最兴旺的领域,是放贷。放贷的爱找什么人呢?就是那些频繁借钱的人,这种人拆了东墙补西墙,听说哪儿能借出钱来,就跟苍蝇见了血一样。于是,想办法通过各种来源的数据,找出那些频繁借贷的人,诱使他上自己这儿来借,再设下个套路贷的陷阱,就能挣一把大的。而这些人常用的数据,就是短信、搜索词什么的。至于来路,没几个正规的。当年那一拨金融科技公司纷纷被抓,不少都跟这些数据黑产有关。

“深挖洞”的模式,用户就有可能蒙受重大损失了。说到底,这还是违背了上面说的“在同一个场景下服务于你本人”这条原则:一个人在A家借贷的数据,按说是不应该让B家知道的。

但是,这样一来麻烦就来了。本质上看,所有的精准广告模式,都存在把A场景/客户的数据用于B场景/客户的问题。如果B场景/客户的金主有恶意,那么这里的风险不容小觑。因此,我支持对于广告业务中使用的数据,要有明确的规范和边界。您想想,搜空调维修把骗子引到家里来这种事,还少么?

在现代的大数据技术下,这种“深挖洞”的能力超乎你的想象:举个例子,通过手机陀螺仪数据,能分析出用户的行进速度,如果速度比较快,再看看电量一直是满的,那么他十有八九是在开车,手机插着充电。如果一天有八九个钟头都是这状态,那大概就是个职业出租司机了。如果这司机在北京,消费上又不像一般司机那么节俭,那很可能是城乡结合部的拆迁户,手里有了点钱,没啥事干只好开出租。这些人一夜暴富,耍钱的比例不低,耍着耍着家里管得紧了,可手瘾还在,就只好借钱了。抓住他们玩套路贷,那可是一抓一个准!

而像滴滴这种掌握大量用户数据的公司,任何一点疏忽或恶意,都可能让用户蒙受重大损失,至于上市过程中,把什么数据交给SEC,SEC又能从中挖掘出什么,虽然不得而知,也是细思极恐了。

咱们再来说说第二类,借你的身份去干坏事。这类方法,往往是在互联网的技术体系内,用一些非PII信息,从客户而不是你身上挣钱。

最典型的例子,就是在黑产圈长盛不衰的的cookie stuffing。这事比较复杂,简单说是这样的:举个例子,假设淘宝为了搞到更多流量,就跟一些渠道说,你们去给我送流量,带来的用户下单,我给你提成千分之二!但是怎么才算这个渠道带来的下单呢?就是用户通过这个渠道的广告位点击到淘宝的时候,带了个用户的ID,后面这个ID再下单时,就能对上了。这样一来,鸡贼的渠道就想出个办法:尽可能多收集用户ID,然后给每个ID伪造一个到淘宝的点击事件,这些ID里如果有人下单,那不就算我的了!反正我一点成本也没有,撞上多少算多少呗!

大家注意,在这样的黑产中,除了用户的ID,人家什么也没用。而这里用的ID,也并不是电话、email这些 PII信息,而是cookie、IDFA等这些根本无法主动触达用户的身份号。就这样,人家拿你的身份证去挣了点小钱,而你没有直接损失,就像是做了一次免费的微型无痛人流。

因为只是借用了你的身份ID,一般不会让你受到直接损失,这类方法往往不为大家所关注。其实,前文那种“广撒网”的黑产也好,这里借身份的黑产也好,虽然单个用户损失有限,但也是赤裸裸地侵害用户权益,这一点没什么可说的。更重要的是,很多黑产从业者,往往是从轻量级的业务入手,一步步升级到那些“深挖洞”的模式,更放肆地讹诈用户。因此,这些“入门黑产”,也会像大麻这种“入门毒品”一样,把挣了这份钱的人,引向更加邪恶的黑产深渊。

说到这儿,咱们拐个弯,提个坊间盛传的传闻:APP监听你线下的聊天内容,然后给你推广告,到底是不是空穴来风呢?这事儿比较复杂,理论上讲有可能的,但是难度不小。简单说可以这么总结:硬件可以搞,软件搞不了。

要从声音中提取有商业价值的信息,那一定得用到语音识别技术。虽然这现在已经比较成熟,可是如果有个程序喝不喝老端着,一直在后台等着听墙根,那会有个严重后果:检测语音的程序,很快就把手机耗没电了。这不就露馅了么?

那还有什么其它呢?有,做一个专用芯片,用于检测语音信号,有语音信号了,再送到后台识别。实际上,智能音箱就是这么干的,所以你喊上一句就能把他唤醒。智能音箱能干,手机厂商当然也能干,所以说,“硬件可以搞”。如果手机把这项能力开放给APP,那么APP也就能干了。只不过,我不认为手机厂商有什么动力这么做,实践中好像APP也拿不到这能力,所以说,“软件搞不了”。

今天扯了不少了,最后再补充两点:一、数据安全问题并非互联网的新问题,原来线下商业中也不少,只是因为互联网让数据变现成了规模化的产业,这事儿才让大家格外重视;二、很多问题都是复杂的技术问题,仅仅靠法规的约束作用有限。我相信,解铃还须系铃人,只有在互联网场景下发展起来的隐私保护技术,才能彻底解决问题。

声明:本文来自计算广告,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。