又有“x年照片对比”上线？这类话题正在精准搜集你的人脸数据

来源：WIRED

编译：fuma、王嘉仪

如果你是社交媒体重度使用患者，你会发现最近出现了大量的“x年挑战”——用自己现在的照片和很多年前的进行对比。

Facebook在岁末年初就上线了一个类似的“回忆杀”，而且显然，这一话题很是抓人心，迅速引起了上百万用户的追随。

KO Insights的创始人，Kate O'Neill并没有参加“十年挑战”，而是发布了以下略带讽刺的推文：

10年前的我：可能会使用Facebook和Instagram上的个人资料图片参与“十年挑战”。
我现在：思考，这些数据如何训练面部识别算法进行年龄识别。

这篇推文迅速引起了大家的关注，以及对于类似主题的反思。Kate O'Neill对此又在wired上发表了一篇长文解释，大公司是如何利用人们的心理搜集数据的。

以下，enjoy。

我不是想说“十年挑战”是危险，而是觉得面部识别技术的合理性仍然存疑。

有许多人觉得我的想法很无趣，他们反驳道，认为反正无论怎么样，自己的照片都已经暴露在网络上了。“Facebook已经获得了我所有的个人资料照片。”

Facebook当然能。在“十年挑战”的各种版本中，人们根据Facebook的引导，将他们的10年前的照片（或第一张个人资料图片）与他们当前的个人资料照片一起发布。每张照片都有记录上传时间，而且这些照片基本上都是公开访问的。

好了，让我们来想象一下。

你想要训练一个关于年龄与相关特征的面部识别算法，更具体地说，面部随着年龄变化的算法（例如人们随着年龄增长，都看起来有什么区别）。理想情况下，这就需要一个包含大量人物照片，形成广泛而严谨的数据集。如果你知道每个人物的照片都有固定的时间间隔，比如10年，那么这个数据集就有效了。

当然，你可以通过Facebook浏览个人资料图片，查看发布日期或EXIF数据。但是整套配置文件图片最终可能会产生大量无用的噪音。人们不能按时间顺序可靠地上传图片，并且用户将自己以外的照片作为个人资料图片发布的情况并不少见。我现在就去快速浏览我的Facebook朋友的个人资料图片，可以看到刚刚去世的朋友的狗，几个漫画，文字图片，抽象图案等等。

换句话说，如果你有一套干净、简单、有用的标签，那么现在的照片才有点用。

更重要的是，对于Facebook上的个人资料图片，照片发布日期不一定与拍摄照片的日期相匹配。即使是照片上的EXIF元数据也无法始终可靠地评估该日期。

为什么？有可能人们会上传多年前的扫描老照片，或者上传屏幕截图。一些平台剥离EXIF数据来保护用户的隐私。

通过Facebook的“十年挑战”，大多数人一直在帮助Facebook添加上下文（“我在2008年和我在2018年”）以及更多信息——比如图片的拍摄地点和方式（“2008年，大学，Joe拍摄 ; 2018年，新城市，新活动”）。

换句话说，由于这个活动，现在有一个非常大的数据集，整理了10年前和现在的人们的照片。

当然，也有一些评论指出，这个数据集有太多垃圾数据而不能使用。数据科学家很懂这一点。所以你还是可以用一用这一流行活动早期由用户上传的图片，毕竟后期人们开始无理恶意打标签，无所谓内容正确与否只为了获得病毒传播效果。

至于虚假图片，现在图像识别算法足够复杂到可以挑选出人脸。比如，如果你10年前上传了一只猫的图像，这很容易被排除。

就其本身而言，Facebook否认参与#10YearChallenge（十年挑战）的话题。一位Facebook发言人回答说：“这是一个由用户生成的病毒式话题。Facebook没有开始这种趋势，十年挑战使用Facebook上已经存在的照片。Facebook没有从这个活动中获得任何东西（除了2009年的时尚潮流）。我先说一句，Facebook用户可以随时关闭面部识别。”

即使这个活动不是收集社会数据的例子，过去几年也充斥着旨在提取和收集数据的社交游戏和图片的例子。想想剑桥通过对超过7000万的美国Facebook用户进行海量数据提取做行为分析。

如果有人使用你的Facebook照片来训练面部识别算法，你是不是感觉不太好呢？操心太多没用——不可避免的。尽管如此，还是认真想想我们如何使用这些数据。接下来我会举三个面部识别的例子：一个可敬，一个平凡，一个有风险。

好的场景：面部识别技术，特别是年龄进展算法，可以帮助找到失踪的孩子。去年，新德里警方报告称，在短短四天内，使用面部识别技术追踪了近3000名失踪儿童。如果孩子们遗失了一段时间，他们可能会看起来与他们最后一张已知的照片略有不同，所以一个可靠的年龄进展算法在这里可能真的很有帮助。

面部识别的潜力大多是平凡的：年龄识别可能对目标广告最有用。通过相机，根据年龄组人口统计信息，可以智能调整广告，在不久的将来可能变成常见的事情。这种应用并不令人兴奋，但可以使广告更具相关性。但随着这些数据与我们的位置定位相联系，影响我们购买行为以及其他数据，它可能会带来一些真正令人毛骨悚然的结果。

像大多数新兴技术一样，这可能会产生令人担忧的后果。有朝一日，年龄增长可能会影响保险评估和医疗保健。例如，如果你的老龄化似乎比你的同龄人更快，也许你不是一个很好的保险风险。你可能需要支付更多费用或被拒绝承保。当亚马逊于2016年底推出实时面部识别服务后，他们开始向执法机构和政府机构销售这些服务，例如奥兰多的警察局和俄勒冈州的华盛顿县。但该技术引发了主要的隐私问题，警方不仅可以利用这项技术来追踪涉嫌犯罪的人，还可以追踪未犯罪的人，例如抗议者和警方认为有害的其他人。

美国公民自由联盟要求亚马逊停止销售这项服务。亚马逊的一部分股东和员工也要求亚马逊停止服务，理由是担心公司的估值和声誉。

很难说一种技术会完全有利于人类。我们有机会让它变得更好，但要做到这一点，我们也必须认识到它可能变得更糟的一些问题，这可以让我们都权衡利弊。

你已经将一些已公开的个人资料图片发布到了你的Facebook上。这有什么大不了的，可会不会会发生坏事？训练年龄进展和年龄识别的面部识别算法是危险的吗？不完全是。

无论这种活动背后的起源或意图如何，我们都必须更加了解我们创建和分享的数据，应该授予它的访问权限以及对其使用的影响。如果这个游戏明确表示它正在收集用于年龄进展研究的当时和现在的照片，你可以选择参与，了解谁应该访问照片以及用于何种目的。

从任何一个活动或甚至任何一个社交平台的细节中，可以总结出，人类世界上在大多数技术上产生了最丰富的数据源。我们应该秉持着尽职调查和精明的态度去对待这些数据。

人类是显示世界和数字世界之间的联系纽带。人际互动是使物联网变得有趣的主要原因。我们的数据是使企业更智能，更有利可图的驱动力。

我们当然应该要求企业以适当的方式对待我们的数据，但我们也需要尊重自己，把握好自己的行为。

又有“x年照片对比”上线？这类话题正在精准搜集你的人脸数据

可信数据空间建设路径的探索与思考

俄罗斯开源情报实践与发展前景

可信数据空间：概念内涵、技术架构与建设路径