收藏首页

我们和一位大数据从业者聊了聊他眼中的信息安全

时间:2018-02-02 17:53:15  我们和一位大数据从业者聊了聊他眼中的信息安全 手机版

我们和一位大数据从业者聊了聊他眼中的信息安全

我们和一位大数据从业者聊了聊他眼中的信息安全

下载不安 | 我们和一位大数据从业者聊了聊他眼中的信息安全

作者 | 九里


下次你的生活中突然出现一位知心爱人的话,你可得小心了……也许 ta 正是从黑市上得到了你的信息,准备对你图谋不轨。


人工智能、大数据这些科技发展过程中出现的新名词概念比进程走的更快,当人们生活中还没多少准确的应用场景时,新鲜词的传播普及速度已经抵达互联网金字塔的最底层(尽管可能你和“他们”都一样,并不知道这个词的含义究竟是什么)。炒热概念在喜欢制造讯息垃圾的新媒体时代简直轻而易举,而真正埋头扎在行业里的人却被极速发展的更新迭代裹挟前进,鲜少发声。

大数据一词从出现在公众视野并发热发酵已经四年有余了,2015年贵州大数据交易所挂牌运营,近年来各地数据交易中心和大数据产业园遍出。我们越来越感受到自己的方方面面都能被数据化,这其中除了有可量化的个人信息,甚至还有你所认为不能被量化的情感动态和个性信息 —— 它们都可能在你深夜不睡聆听的音乐和一口气怒点淘宝的消费行为中被暴露出来,并进一步被采集分析。

我们跟你一样,恼于骚扰电话和短信在精准营销的外壳下把自己包围;恼于大数据分析剥茧抽丝地把一切消费者分门别类,使主观行为不再具有个性色彩;恼于自己的产生的数据和信息以及其中的价值在不知名的市场里一次次被倒手转卖和利用,自己却毫不知情也分不得一点好处……于是我们特地找来了一位大数据产业的多年从业者 Senker,来听听他来讲讲这个产业,以及他是否也和你我一样,为信息与数据所恼。

VICE:请你先向我们介绍一下你的工作吧,身为一个大数据产业从业者,你的主要工作内容是什么呢?

Senker:我现在所在的单位在中国大数据交易市场上的角色是一个提供数据清洗加工等增值服务的交易平台。我负责市场方面的工作,即在市场上找到数据的买卖双方,让他们加入到我们平台上来进行数据交易,这个工作任务细分下又包含了政府数据源和市场数据源 —— 所以既要和政府谈,也要和社会企业谈。

目前大家对大数据的认识还不够清晰准确,所以其实我们从业者很大一部分精力还要给客户先普及什么是大数据、什么是大数据应用,最后才进行到数据的流通和交易。

数据都是怎样被交易的?

交易的数据大概有两类,一类叫原始数据,一种叫数据产品。原始数据可以直接通过线上账号付费购买流通,数据产品则需要加工服务,花费的时间也比较长。但原始数据不代表底层数据(底层数据就是指包含个人信息的数据),在交易所内交易的数据必须都是脱敏脱密的,都是清洗过的数据。这个事情其实很简单,难的是对数据的加工和建模。好比你从地里把一颗土豆拔出来,要把土豆洗干净再摆到市场上去卖,洗完的土豆就看不出是哪里来的土豆了,但是怎样把土豆做成各种菜品,做的多好吃才是考验人的部分。

交易所在数据交易过程中扮演的角色类似于能够提供服务的淘宝平台,它的营收一方面来自交易平台佣金,一方面来自为客户提供数据产品的服务收费。

虽然你说交易的数据都是清洗过的数据,是不涉及隐私的非底层数据,但在清洗的过程中是否有泄漏个人信息的可能?

这个可能是肯定有的,数据在任何一个阶段都可能存在泄露风险,所有的东西都没有绝对的安全 —— 互联网没有绝对安全,国家土地也没有绝对的安全。我个人觉得一味去关注数据泄露是一个永远无法无解的问题,全球任何一个国家都没有敢说自己的数据库是绝对安全的。

那你自己有对数据隐私的担忧吗?

其实就数据隐私而言,在目前中国这个不是担心,而是已经发生了的事实 —— 我们都知道我们的个人信息通过不同技术手段能在各类平台上被拿到。通过第三方的一些非法交易和贩卖,我们的个人信息是完全暴露在整个社会体系里面的。

其实隐私问题现在已经是个问题了,而并不是说即将发生或者怎么样,反而现阶段我觉得是国家开始越来越重视这个东西。以前的隐私法界定的东西跟不上互联网的高速发展了,网络安全法还有对跨境数据的流通管理等等都是对这部分的一个补充。国家已经开始在做很多工作了,隐私问题逐渐会得到更多的重视和法律保护,现在市场上大量的个人信息被非法贩卖的情况会变少,而且也许以后,目前受到大家争议很大的互联网服务“隐私协议”霸王条款也会越来越少。

什么样的数据泄露会是有比较严重的后果的?

这个要看是对个人还是对国家。对个人来说,最最敏感或者说最危险的,是我们个人信息被流通到一些不法分子手上形成诈骗。当你的姓氏、周围的朋友、生活方式和行为习惯等所有的信息都被诈骗集团知道了以后,你是很容易被攻击的。从最简单的通过一个假账号伪装你的朋友跟你借钱,到大一点的甚至在现实中伪装成其他人来接近你并成为你的“知己”来骗财等等,诈骗无处不在,虽然听起来都觉得很扯,但其实发生在生活中时你都不一定能觉察到。现在社会上很多诈骗都是搜集到一定数据之后才进行的,因此严重程度比以前高很多,每个人都有可能中招。

对国家来说的话,数据有三类,以颜色区分分别是红色、橙色和绿色:绿色是必须无偿公开的信息,橙色是可以有条件公开但没有直接公开的信息,而红色则是内网以及政务内部信息,是绝对不能公开的。这一部分数据如果遭到泄露和篡改或者遭受攻击,后果都是非常可怕和严重。但是因为大家平时接触不到这些,也不会去想到这个国土安全层面的问题。

我们的个人信息数据都掌握在什么人手中呢?他们对包含我们个人信息的这种利用对我们有什么利益损害?

首先公安和人社都有你的非常重要的原始个人信息,比如说公安有我们的出生信息、刑侦办案的时候可以通过三大运营上获取你的位置信息等等,人社系统里有你的五险一金,迁移轨迹等等。但他们是独立运营的,同时这些数据相对来说是安全的,因为他们主动泄露出来的可能性比较低,对恶意攻击的防护等级也比较高。而且他们对信息的收集是用于更宏观的决策的,再加上信息采集的来源渠道是公开的,这部分信息数据被分析利用的时候对我们的个人利益损害其实不是很大。

但企业所掌握的我们的个人信息则是不一样的,第一你不知道它的信息渠道来源是什么,有时候是在你不知情的情况下被隐秘收集的;第二它的流通方式是不可控的,它们在各种地方被不法倒卖,甚至你都可以轻而易举在电商平台上买到;第三它的用途经常被用于最底层的信息精准营销,也是我们日常生活中最烦的那种骚扰信息。所以这种情况下对我们个人利益的损害比较大,但这部分也是我们最防不胜防的。

这些不法交易中的数据都是怎么获得的?

其实有几种方式:第一种方式叫网络爬虫技术,当你在一个公开平台上留下一个账号,由这个账号再延展出去的界面和信息都可以全部被搜索到,这都是沿着你的公开轨迹被保存下来的数据。第二种方式是通过半公开或者没有公开的身份验证信息来搜集,即所有需要实名验证的场合。比如我们在酒店住宿,会被录入个人信息,它就有流出的风险,可能是被酒店员工转卖的,也可能是被某些黑客攻击酒店系统盗取的。还有运营商、第三方支付平台、各种你办理会员的线上线下场所,甚至医院都有可能是这些数据的获得来源。

曾经有一次我刷卡完成了一笔大额交易,不出几分钟我就收到其他银行发来的开卡邀请短信,这是不是说明他们其实在共享用户的交易行为呢?

依我的经验判断并不会。银行比较注重保护用户的数据,同时也不太可能把有消费潜力的客户共享给其他银行,再加上银监会对所有银行都有规定是不能够将交易数据流通出去的。你说的情况,很可能是你交易通过的第三方平台,或者是你消费的场所和机构和各家银行都达成了一些协议,向他们输出用户的消费行为。

原来这些人也有可能把我卖了,不过确实很难追溯到这到底是怎么一回事,也不知道到底是谁什么时候把我的信息给了谁,挺没安全感的。

其实我们有一句业内的话,就是在互联网时代,你是没有隐私的。因为你所有的行为轨迹其实都是被记录或者留下可追溯痕迹的。

你手机上所有安装的APP都尽可能的在早期希望获得你的各种信息,最简单来说就是位置。然后这个信息拿回去之后,他就会对你的这个人在整个城市里面的行为轨迹做一些分析。比如说凌晨12点到第二天7点,你一直呆在某一个地点,那么就可以把它假定为你的住所,再通过这个住所去评估资产情况,再解读你的消费能力,或者说结合其他的信息绑定在一起,能做非常非常多的衍生分析。

但是这并不是真正的大数据分析?

对,因为其实我们从业人员一般认为有两类东西,分别是数据和信息。数据基本上是特征值,比如说前段时间比较火的17年支付宝的账单,蚂蚁金服默认勾选的那个许可获取的信息,每一个单独拿出来就是数据,如果把对标到你个人身上的特征值去掉的话,就叫大数据。比如说我不知道你是谁,但是我知道有一个人17年在淘宝上花费了多少钱,花费的方向是哪些,这就是大数据中的一个样本。

当我现在需要分析北京20岁至25周岁这个区间内的男性消费行为时,我买了50万条支付宝的这个数据过来,这个数据里面没有个人信息,每一条数据背后我都不知道是谁,这就是大数据应用场景。这个信息可能会用于我最后决定在北京什么区域去开一个店的决策,但是并不是用来给所有潜在的会来这家店的人打电话通知,这就是区别。

一旦说这个数据里面有你的信息能追踪到你,那我就知道你是谁,并且知道你在淘宝上大概花多少钱,作为经销商我就会给你不断投放广告、打电话,这个就叫做信息的贩卖或者信息贩卖之后的营销,就不是纯粹的大数据分析了。

所以大数据交易所的交易是一个很干净的交易,我们平常总觉得自己的信息被别人交易,然后给生活造成了很多麻烦的这个锅不是大数据背的。

对,这真的不是大数据背的。因为大家对这东西不太懂,都会以为是大数据害了我,大数据导致我的信息各种被贩卖。其实,2016年在整个中国可追溯或者说可查询的黑市数据交易额有500个亿,然而我们三年的交易额才三亿。因为我们的交易都是合法合规且公开的,所以这个体量相对于整个数据交易市场来讲,真的非常小。

那这似乎就像黑客与白客一样对吧?有数据处理能力的人有可能会在黑市上提供服务,也有可能会给合法市场提供服务。

其实黑客我们不一定是一个绝对的贬义词,有时候它是指一些技术非常厉害的人,如果说挖掘数据或者获取数据的时候是通过合法合规的途径取得的,并且分析数据能力也很强,那么我认为他就是一个拥有“黑客”技术的白客,如果说是通过一些非常非法的手段去获取到信息,并且用于非法非常的用途,那就是一个传统意义上的黑客,但从黑客转为白客,去给社会或者说给企业做一些真正的数据应用服务的情况也是存在的。

采访的最后,我向 Senker 讨教我们在生活中如何尽可能地去做一些事情来保护自己的数据安全争取一些主动,他告诉我,在使用 APP 时要少授权给 APP 获取自己的位置信息,注意看清服务条款和授权协议 —— 可是实际上不论有没有看清其中的条款多么“霸王”,只要想使用这款 APP 以及它带给你的服务,你就得勾选同意。

这就是蓬勃互联网时代,谁都无法拒绝。


异视异色(北京)文化传播有限公司
版权所有,未经授权不得以任何形式转载及使用,违者必究。


我们和一位大数据从业者聊了聊他眼中的信息安全关键字:
    无相关信息
共有条评论发表评论

用户名: 密码: 验证码: