年底到了,苹果公布了今年最流行的 emoji,在英美法 3 国的统计中,最受欢迎的 emoji 是笑着哭的表情(Face With Tears of Joy),第二流行的 emoji 则是红心( Red Heart )。
对于我们而言,每天使用 emoji 已经习以为常,它们替代我们更便捷地表达了内心的感受。不过问题来了,一直宣称注重保护用户隐私的苹果,是如何获取用户每天在键盘上发送出去的数据讯息,进而整理出这个榜单的呢?
最近,苹果的机器学习日报(Machine Learning Journal)刊文解释他们是如何透过“差分隐私”( Differential Privacy)的方式,在保护用户隐私的情况下收集到用户群体的使用习惯。
差分隐私这项技术,主要是在收集数据的过程中,加入一些随机的干扰讯息,将用户的个人数据打乱,然后与其他数百万人的数据混合在一起。这样一来,苹果就只能看到整体的状况,而看不到个人的具体数据。即使数据库中的讯息被泄露,也无法将讯息对应到各个具体用户。
差分隐私的原理,其实与统计人员做调查时,用来保护受访者隐私的办法是类似的。比如,想要调查某个人群的出轨率,为了保护受访者的隐私,并且提高人们如实回答的意愿,调查者通常会这样设置调查方式:
调查问题是“你是否曾经有过出轨行为”,答案只有“是”和“否”两个答案。然后每个人发一枚硬币,在回答这个问题之前先抛掷硬币,如果正面朝上,就回答真实情况,如果反面朝上,就再投掷一次硬币,正面就回答“是”,反面就回答“否”。当然,第一次投掷为正面的人,也可以假装再投掷一次硬币来混淆视听。
调查后会获得 X 份问卷,其中有 Y 个人回答“是”,则可计算出这个人群的出轨率为(YX/4)/(X/2) 。即使这些收集到的问卷被偷或者泄露,受访者的隐私依然能够被保护。
需要明确的是,数据不等同于隐私,两者的定义是不一样的。隐私是对应单个用户,比如,美国人 Amy 最常使用的 emoji 是“笑着哭”,这是属于他的个人隐私;苹果公布英语用户最喜欢使用的 emoji 是“笑着哭”,这是对应群体用户的讯息,则不算隐私,但是如果可以从这些数据中推算出 Amy 的 emoji 使用习惯,那就是用户隐私泄露。
在 2016 年的 WWDC 大会上,苹果就宣布使用差分隐私的方式来收集用户资讯,并且首先应用到分析流行表情符号,收集 Safari 中能耗率高的网页讯息,以及发现新流行词语(QuickType 相关)上。
应用差分隐私方案,根据添加干扰讯息的先后,可以分为两种设置:本地和中央。
▲ 差分隐私收集数据的方式。(Source:苹果)
苹果在论文中讲述了“本地差分隐私”这一方案的使用:在数据从用户装置发出之前,就会添加上干扰讯息,同时每天只会透过加密通道上传一次数据,数据在到达服务器后,装置的 IP 标识会被丢弃,各个纪录之间的关联也会被丢弃。
当然,iOS 10、macOS Sierra 以上的用户,可以自己选择是否要加入差分隐私,在 iPhone 的隐私选单、苹果电脑的控制台中,可以自主设定。
不过,差分隐私政策真的安全吗?据外媒《Wired》今年 9 月的报导,已经有学者反向研究出苹果随机加入干扰讯息的详细步骤,并指出“差分隐私的有效性,取决于被称为隐私损失参数或‘epsilon’的变量,这个变量决定了数据收集者为了保护其用户的秘密而愿意牺牲多少特异性”。他们认为苹果在 MacOS 上所设置的参数变量,上传了比预期更多的用户隐私讯息。
曾任 Google 研究科学家的 Aleksandra Korolova 在《Wired》的报导中说:“苹果的隐私损失参数,已经超出了差分隐私研究领域中人们通常认为可以接受的程度。”
不过苹果也对此反驳,他们说自身的差分隐私系统为不同类型的数据里,添加了不同的干扰讯息,远比这些研究人员所得出的结论要安全,并且会去掉不同数据类型之间的关联。
然而学者和大众也有同样的顾虑,苹果自认为所搜集用户数据之间的关联已经被去除,但是不排除有人可以逆向倒推出来。
如今无论在哪个行业和产品,透过收集数据了解用户使用情况,对于改进产品、提升用户体验至关重要。随着数据挖掘和人工智能技术正逐渐成为最佳化产品的重要驱动力,用户使用产品的数据已经是驱动算法迭代的能量。没有产品经理能够放弃用户资讯,就看他们是否愿意、并会用什么办法保护我们的隐私了。
(本文由 爱范儿 授权转载;首图来源:Flickr/downloadsource.fr CC BY 2.0)