隐私计算如何“倒逼”隐私设计

2022年底至2023年初，谷歌和苹果等主要“守门人”开始正式地将隐私计算大规模投入实用。各方都在紧锣密鼓地测试和应对。值得观察的角度很多，此处聚焦于在数字广告的场景中，差分隐私这一隐私计算技术的引入，如何“倒逼”个人信息处理者全方位地贯彻隐私设计的思路。

不妨以谷歌隐私沙盒为例。隐私沙盒的归因报告混杂了拉普拉斯噪音，可以保证基准值epsilon=10的差分隐私。广告生态中的处理者需要相应研发“噪音管理策略”。这意味着根据营销目的、数据分布等因素“精打细算”，逐个字段逐个字段地权衡决定隐私保护和可用性。隐私设计的水位再次上升。由此形成的业界实践，又会成为后续适用最小化原则和隐私设计规则时的裁量标准。

归因报告还在实验当中，同时有待监管机关放行。不过，预期差分隐私这一核心设计思路将会延续。以下翻译文档之一，作为研究的起点。（朱悦）

#核心设计原则

现有的第三方cookie和隐私沙盒摘要报告的运作方式存在着基础性差异。关键区别之一是在报告的测量数据中加入了噪音。

为了获得信噪比更高的摘要报告测量数据，需求方平台（DSP）和广告测量供应商需要与其广告商合作，制定噪音管理策略。为了制定这些策略，DSP和测量供应商需要做出设计决策。这些决定围绕着一个基本的概念。

从绝对意义上来说，噪声值的分布只取决于两个参数——epsilon和贡献预算。然而，其他（七方面）有待决定的事项也会影响到输出测量数据的信噪比。

虽然我们期望迭代的过程将会导致最优的决定，但这些决定的每一个微调都会导致稍微存在差异的实现——因此这些决定必须在编写每个代码迭代（以及运行广告）之前进行。

#决定一：维度的颗粒度

基于核心设计原则，相对较小的摘要值，可能比相对较大的摘要值包含更多的噪音。因此，配置的选择影响到每个分桶中最终包含多少已归因的转化事件（也就是聚合键），而这个事件数量又会影响到最终输出的摘要报告的噪音大小。

影响单个分桶内已归因转化事件数量的设计决定之一，是维度的颗粒度。不妨考虑以下包含聚合键及其维度的例子：

方法1：具备粗略的颗粒度的键结构，国家*广告活动（或最大的活动聚合桶）*产品类型（10个可能的产品类型）；

方法2：具备细化的颗粒度的键结构：城市*创意ID*产品（100个可能的产品）

城市是比国家更加细化的颗粒度，创意ID比活动要更加细化；而产品又比产品类型更加细化。因此，在其摘要报告中，方法2的每个分桶（每个键）的事件（转化）数量将低于方法1。鉴于添加到输出的噪音与桶中的事件数量无关，摘要报告的测量数据在方法2中会包含更大的噪音。对于每个广告商来说，为了在结果中获得最大的可用性，要在键的设计中尝试不同颗粒度的权衡。

#决定二：键的结构

另一个影响单个分桶内的归因转化事件数量的设计决定，是决定使用的键结构。考虑下面的聚合键的例子：

一个包含所有维度的键的结构，称之为键策略A；

两个键结构，每个都只包含所有维度的一个子集，称之为键策略B。

策略A比较简单——但是可能需要将包括汇总报告在内的、包含较大噪音的汇总值加总起来（求和），以期获得洞察。汇总这些值的时候，也是在汇总噪音。对于策略B，摘要报告披露的摘要值可能已经提供了所需的信息。这意味着策略B可能会比策略A带来更好的信噪比。然而，策略A的噪音也许已经可以容忍。因为策略A比较简单，所以也具有可取之处。

键的管理是个很深的话题。可以考虑采用精心设计的技术来提高信噪比。

#决定三：分批频率

另一影响单个分桶内的归因转化事件数量的设计决定，是分批频率。分批频率就是处理聚合报告的频率。

更加频繁地进行聚合的报告（例如，每小时），其包含的转化事件将少于聚合频率较低（例如，每周）的报告。因此，其他条件相同时，每小时报告将比每周报告有更高的信噪比。实验不同频率的报告，并评估每个报告的信噪比。

#决定四：影响可归因转化的活动变量

广告商的可能的转化总量，与其可能的已归因转化总量，这是一对重要的区别。后者才会最终影响到聚合报告中的噪音。已归因转化是转化总量的一个子集，容易受到广告活动变量，例如广告预算和广告定位的影响。例如，其他条件相同的时候，1000万美元的广告活动会比1万美元的广告活动有更多的已归因转化。

需要考虑的因素：

根据单次接触、单一设备的归因模型来评估归因转换，因为这些属于归因报告API所收集的摘要报告的范围；

考虑归因转换在最坏情况下的计数和最优情况下的计数。例如，其他条件相同的时候，考虑广告商可能的最低的和最高的活动预算，然后预测这两种结果的已归因转化，作为仿真的输入；以及，

如果你考虑使用安卓隐私沙盒，请在计算中考虑跨平台的已归因转化率。

#决定五：使用缩放

鉴于核心设计原则，增加的噪声是贡献预算的函数。

因此，为了提高信噪比，可以通过对贡献预算进行缩放来变化在转化事件中收集的数值（并在聚合后去掉缩放）。使用缩放来增加信噪比。

#决定六：测量目标的数量，以及隐私预算的分配

这与缩放有关。请先阅读“#决定：使用缩放”。

如果在单个转化事件上测量一个数据点（测量目标），例如转化数，该数据点可以获得所有的贡献预算（共计65536）。如果在单个转换事件上设置了多个测量目标，例如转化数和购买价值，那么这些数据点需要共同分享贡献预算。这意味着在放大数值方面的余地相对较小。

因此，测量目标越多，信噪比就可能越低（噪音会越大）。

有关测量目标的另一个决定是预算分配。如果把贡献预算平均分配给两个数据点，每个数据点得到的预算是65536/2=32768。这未必是最佳的分配，取决于每个数据点最大的可能值。例如，如果测量的购买数量的最大值为1，而购买价值的最小值为1，最大值为120，那么购买价值将受益于更大的“放大空间”——也就是为购买价值分配更高比例的贡献预算。需要决定在噪音的影响方面，一部分测量目标是否应该优先于其他目标。

#决定七：异常值管理

为了实现缩放，通常需要根据给定转换事件的最大可能值计算一个缩放系数。

然而，要避免使用原始的最大值来计算这个缩放系数，因为这会使得信噪比恶化。相反，要去除异常值，使用一个更加务实的最大值。

异常点管理是一个很深的话题。可以采用一些精心设计的技术来提高信噪比。

— THE END —

--------------------------------------------------------

声明：本文来自数据合规与治理，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

隐私计算如何“倒逼”隐私设计

网易云阅读等30款App因个人信息收集使用问题被中央网信办通报

车牌监控摄像头可扫描识别和关联手机、AirPods和智能手表

因指纹考勤系统数保评估(DPIA)存在重大缺陷，一跨国公司被罚40万欧元