编译:对外经济贸易大学金融科技实验室

编者按

作为数字经济的基础性制度,欧盟GDPR对数字经济影响几何,一直是学界关注的重大问题。在《数字经济视野中的欧盟<一般数据保护条例>》和《欧盟<一般数据保护条例>的周年回顾与反思》两篇文章中,我曾就GDPR对数字经济影响作出了全面分析。最近,哥伦比亚大学和麻省理工的Guy Aridor、Yeon-Koo Che和Tobias Salz利用在线旅游行业的数据,对GDPR的经济后果进行了经验研究。这篇《数据隐私监管的经济后果:来自GDPR的经验证据》(THE ECONOMIC CONSEQUENCES OF DATAPRIVACY REGULATION: EMPIRICAL EVIDENCE FROM GDPR)聚焦于下述三个问题:(1)用户在多大程度上可以行使GDPR赋予的同意权?(2)GDPR如何改变用户的构成?(3)GDPR将如何影响严重依赖用户数据的企业?相应的,该文的回答分别是:(1)具有隐私意识的用户会从效率较低的隐私保护转向为明确选择退出,(2)但是,剩余用户对广告商的平均价值有所增加,抵消了选择退出的用户的大部分损失;(3)尽管如此,企业预测用户行为的能力并没有因为GDPR引起的变化而显著恶化。该文充分说明了个人信息保护法经济后果的复杂性,并再次证明了任何市场均具有自反(reflective)和瞻前顾后的性质,若立法者无法洞察法律背后的经济逻辑,国家监管的任何风险、责任和成本都可能或规避,或转嫁,最终可能治丝益棼,徒增社会成本。

——对外经济贸易大学数字经济与法律创新研究中心执行主任许可

文章来源:

NBER WORKING PAPER SERIES

THE ECONOMIC CONSEQUENCES OF DATA PRIVACY REGULATION: EMPIRICAL EVIDENCE FROM GDPR

Guy Aridor Yeon-Koo Che Tobias Salz

摘要

本文研究了欧盟《一般数据保护条例》(GDPR)对企业收集用户数据、随时间推移识别用户、通过网络广告获得收入并预测其行为等方面的影响。我们利用一个中介机构提供的大部分在线旅游行业的新数据集以及GDPR的地域覆盖范围,进行差异性分析。由于GDPR新的选择加入(opt in)要求,我们发现用户数下降了12.5%。同时,那些可以观察到的剩余用户的使用时间更长了。我们提供的证据表明,这种模式与以下假设相一致:具有隐私意识的用户会从效率较低的隐私保护(例如删除Cookie)转向为明确的选择退出,这一过程将减少消费历史记录。根据该假设,我们观察到剩余用户对广告商的平均价值有所增加,抵消了选择退出的用户的大部分损失。最后,我们发现中介机构的专有机器学习算法预测用户行为的能力并没有因为GDPR引起的变化而显著恶化。我们的研究结果强调了用户隐私决策对其他用户和企业的外部性。

一、引言

在过去的几十年中,技术进步已经使得企业收集的用户数据的规模和精确度都有了巨大的提高。随着这些进步,机器学习和其他数据处理技术也取得了进步,这些技术使企业能够将数据转化为成功的产品和服务,并在此过程中获得巨大的经济效益。然而,与此同时,由于用户对越来越多的数据泄露事件缺乏控制力,他们的沮丧感日益增加。在此背景下,政府监管机构提出并颁布了数据隐私保护法规,以使用户能够更好地控制他们生成的数据。欧盟是第一个颁布此类立法的机构,即《通用数据保护条例》,该法律已成为加利福尼亚,佛蒙特州,巴西,印度,智利和新西兰隐私立法的蓝图。但是,我们缺乏有关此类法规的有效性和广泛影响的经验证据。这些证据不仅对于指导即将制定的法规至关重要,而且对于理解隐私经济学中的基本问题也至关重要。

本文实证研究了欧盟《通用数据保护条例》(GDPR)的影响,特别是其要求允许用户对其数据的处理作出知情、具体和明确的同意。同意要求构成了用户隐私保护的前提,并可能威胁到企业的数据驱动商业模式。同意选项提供了一种简单但有效的保护隐私的方式:通过拒绝同意,用户可以阻止网站收集个人数据并与第三方关联机构分享的行为。与此同时,拒绝同意阻碍了企业跨时间跨网站地跟踪用户,从而以此建立用户历史档案。因此,用户行使他们的同意权可以显著地妨碍这些企业了解和预测用户行为,以及相应地针对他们投放服务和广告的能力。

我们的调查集中在三个广泛的问题。第一,用户在多大程度上可以行使GDPR赋予的同意权?坊间传闻和调查证据表明,用户重视自己的隐私,但是当他们面对一个简单有效的手段时,他们是否愿意采取行动保护自己的隐私?或者,他们只是简单地忽略了这个选择,甚至以极低的成本泄露他们的个人数据?对于这些问题,我们还没有明确的经验性答案。

第二,GDPR如何改变企业观察到的用户构成?甚至在GDPR之前,用户就能够通过使用基于浏览器的隐私保护手段来保护自己的隐私。然而,利用这些隐私手段将导致底层数据仍被发送到网站,但是这些数据将与不同的标识符相关联,以使网站无法将此数据链接到同一用户。这些“虚假的”用户足迹很难与未采用这些隐私手段的用户留下的真正的用户足迹区分开来。这个过程会在企业观察到的数据中制造噪音,使他们很难追踪用户并预测他们的行为。但是,在GDPR规定的制度下,同样的一个用户可以简单地选择退出。在这种情况下,他们不会留下任何足迹,并且从原则上讲,这可以使剩余的用户更容易被跟踪和识别。这就提出了一个有趣的问题,即由隐私工具对其他用户以及对公司产生的外部性问题。据我们所知,这些形式的隐私外部性不仅与理论文献中认识到的不同(Choi, Jeon and Kim, 2019; Acemoglu et al., 2019;Bergemann, Bonattiand Gan, 2019)而且更重要的是,尚未从实证经验上确定。

第三,GDPR隐私保护将如何影响严重依赖用户数据的企业?具体来说,用户选择退出如何影响企业获知和预测用户行为以及提供有针对性的广告的能力?广告商对这种变化将作何反应?他们为了吸引可提供给他们的用户,出价更多还是更少?显然,选择退出将减少可用于企业的数据规模,这可能导致企业的预测能力受到影响。但与此同时,用户构成可能发生的变化可能会改变数据的质量。如果可以更轻松地跟踪其余用户并使其购买,则这可能会增加用户对广告商的价值,从而弥补规模上可能的损失。

为了回答这些问题,我们使用了一个匿名中介机构提供的数据,该中介机构在40多个国家/地区开展业务,并与许多大型的在线旅行社和旅行元搜索引擎签订了合同。该数据集在多个方面都特别适合当前研究。中介业务不可或缺的一部分就是根据过去行为的可识别历史来预测每次访问时每个用户的购买可能性,并将其用于个性化网站上的用户体验。这些数据使用Cookie(由中介设置)将用户的行为跨时间和跨网站链接起来,Cookie是存储在用户web浏览器上的小文档,它允许中介机构识别用户。我们像中介一样观察到(以匿名和汇总形式)同样丰富的用户信息,并像中介一样将它们链接。如果用户使用GDPR选择退出功能,不同意网站存储数据,那么就直接意味着某些类型的Cookie无法被储存,从而将中介机构拒之门外。我们可以根据这种(第三方)中介机构看到的用户访问次数和构成变化来直接推断出用户的隐私选择,这是回答前两个问题所必需的。我们还观察了基于关键字的在线广告的收入,并观察了专有的机器学习算法的输出结果。该算法可预测购买可能性,这将有助于我们解决第三个问题。

我们的经验设计利用了这样一个事实,即中介与全球许多不同平台的合同都在引入GDPR后受到了的不同影响。此外,机器学习算法的训练和应用在不同在线旅游网站分别进行。这意味着一个网站上的数据由于GDPR或其他因素的变化,不会影响其他网站上算法的性能。我们利用数据的这些特点和GDPR的地域覆盖范围,对欧洲主要国家和未实施GDPR的其他国家/地区的若干结果变量采用了差异设计。

我们发现GDPR导致Cookie总数减少了约12.5%,这提供了证据表明用户正在利用GDPR规定增加的选择退出功能。但是,我们发现剩余的未选择退出的用户组具有更持久的可追踪性。我们将可追踪性定义为网站在一段时间内反复观察其标识符的用户所占的比例。我们发现在GDPR规定下,可追踪性提高了8%。

我们探索了提高可追踪性背后的机制,并认为最可行的解释是,使用GDPR选择退出的个人主要在替代其他基于浏览器的隐私手段,例如Cookie阻止程序,Cookie删除和私人浏览。但是,GDPR选择退出和这些其他隐私方法会导致非常不同的数据生成过程。浏览器提供的隐私工具意味着向用户分配新的ID,从而使其每次访问站点时都显示为新用户。这导致许多人为的短期用户,而GDPR隐私政策意味着仅是简单的将个体从这些数据中剔除出来。结果,在实施GDPR之后仍保留在数据中的那些使用者具有更持久的可识别性。我们在图2中说明了这种差异。

鉴于用户构成的这种变化,我们将探讨这种变化将会在多大程度上影响广告商收入。在我们的设定中,我们观察到的收入来自基于关键字的广告,此外,当用户选择退出时,他们不再会看到广告。我们发现点击的广告总数立即下降,相应的收入也立即减少。不过,随着时间的流逝,广告商平均会增加对剩余用户的报价,从而导致整体收入下降幅度较小。这表明与实施GDPR之前的一组用户相比,剩余的一组用户是价值更高的用户。一种可能的机制是,用户可识别性的提高,通过广告,使广告商得到比以前更多的推销行为。归因能力的提高导致广告商对用户整体价值的感知增加。

最后,我们研究了GDPR对中介机构预测用户行为的能力的影响。特别是我们研究了中介使用的分类器的性能,这是中介业务的核心要素。分类器预测了用户在其当前搜索的网站上实施购买行为的可能性。我们发现有证据表明分类器没有立即调整适应GDPR实施后的分布。尽管如此,我们仍然发现,GDPR颁布之后,分类器在购买者和非购买者之间进行区分的能力并没有显著恶化,而且,如果有的话,中介机构观察到的数据变化应该会导致其区分购买者和非购买者能力的提高。

相关工作

几十年来,经济学家、法律学者和计算机科学家一直在研究用户隐私权的保护及其后果。我们参考学习了隐私经济学的以下三类文献。

数据隐私管制的后果:

据我们所知,Goldberg, Johnson 和Shriver (2019) 发布了研究GDPR对欧洲网站的经济影响的第一篇论文。他们同样采用差异分析的方法研究了GDPR对欧洲网站的流量和购买量的影响。然而,我们的数据范围允许我们将个人选择退出决定的后果与用户身份、广告收入和预测技术的有效性联系起来。这使我们不仅可以直接衡量GDPR的影响,而且可以进一步了解与个人隐私权决定相关的外部性及其间接经济影响。

另外几篇论文研究了GDPR在其他领域的影响。Jia, Jin和Wagman (2018)的研究表明GDPR对风险投资产生了不利影响。Zhuoet al.(2019)研究GDPR对互联网链接协议的影响。Johnson and Shriver(2019)研究GDPR对网络技术供应商的市场集中度变化的影响。Degelinget al.(2018年)表明根据该政策的要求,大量网站通过更新其隐私政策声明并添加Cookie同意书来回应GDPR。Utzetal.(2019年)表明,跨网站实施GDPR中存在异质性,这导致了用户是否同意数据收集方面存在明显差异。

此外,其他几篇论文研究了先前的数据隐私法规对在线广告的有效性。首先是欧盟的2009年《电子隐私指令》,也称为Cookie法案,这是欧洲旨在提高用户数据透明度和控制力的一部法案。Goldfarband Tucker (2011)通过调查的方法研究此法律颁布后欧盟在线广告的有效性,并发现广告有效性有所下降。第二个是自我调节的广告选择程序,该程序允许用户选择退出在线广告。选择退出此程序的个人仍然可以看到广告,但是广告上不再根据他们的个人浏览历史而针对他们。Johnson, Shriver and Du (2020)研究了此政策,发现选择退出的用户所产生的收入要比不选择退出的用户少52%,但只有不到四分之一的广告痕迹来自选择退出的用户。Goldfarb andTucker(2012a)认为,隐私权法规可能会阻碍许多行业的数据创新活动,包括定向广告。最后,Johnson (2013)估算广告竞价的结构模型,并通过反事实计算来探索不同的假设性选择适用和选择不适用数据同意政策的影响。他发现,在选择适用政策的情况下,广告收入将下降34.6%,在选择不适用政策的情况下将下降3.9%。

信息外部性:

用户的隐私决策的重要后果之一是该决策所产生的信息外部性,因为一个用户透露的信息可以用来预测另一个用户的行为。最近的一些理论研究争论了这种外部性如何导致数据定价过低,并导致社会上过多的数据收集 (Fairfield and Engel, 2015; Choi, Jeon and Kim, 2019; Acemoglu etal., 2019; Bergemann, Bonatti and Gan, 2019; Liang and Madsen, 2019). Braghieri(2019)从理论上研究了用户的隐私决策如何通过影响企业的价格歧视诱因而对其他用户产生价格外部性。本文确定了一种信息外部性的新颖形式。虽然现有的研究集中在用户决定披露他的私人数据的行为,是如何预测其他不披露数据主体的行为从而对那些不披露的主体产生外部性,但是我们从中认识到反向流动的外部性。也就是说,我们发现注重隐私的用户决定从混淆处理转变为更有效的GDPR支持的退出机制,这可能增加选择透露其数据的选择进入用户的可追踪性,从而产生外部性。更重要的是,据我们所知,这是第一篇关于隐私外部性的实证研究。

隐私偏好设置

最近进行的有关隐私权经济学的更宽泛的文献,Acquisti, Taylor and Wagman(2016), 研究了个人的隐私偏好。一个普遍的研究方向是理解隐私悖论,即已陈述和披露的隐私偏好的不平等。尤其是,用户对隐私表示强烈偏好,但他们愿意为小额奖励而放弃其个人信息(Berendt, Günther and Spiekermann,2005; Norberg, Horne and Horne, 2007; Athey, Catalini and Tucker, 2017).Acquisti, John and Loewenstein (2013) 利用现场实验来评估个人对隐私的偏好,并找到个人对隐私的重视程度与背景相关的证据。Goldfarb and Tucker (2012b)通过调查阐明的偏好表明,随着时间的流逝,用户对隐私的关注日益增加。Lin(2019)通过实验室实验表明,用户的隐私偏好可以分解为工具性和非工具性两类。我们的研究为这些文献做出了贡献,因为我们分析用户在相应环境下的隐私选择,而不是仅仅关注已经阐明的偏好,我们发现,相当一部分用户利用了GDPR提供的隐私手段,这提供了暗示性的证据,表明用户确实重视他们的隐私,而不仅仅是口头上说他们重视隐私。

本文的结构如下。第二节概述了欧洲隐私法和用户追踪技术的相关信息。第三部分介绍了本研究所使用的数据和经验策略。第四部分提供有关用户使用GDPR提供的隐私工具的程度的证据。第五部分和第六部分别分析了这对在线广告收入和预测的影响程度。第七部分总结。

二、制度细节

本节我们将探讨欧洲隐私法规和GDPR的相关细节。接着我们将阐述网站是如何在线跟踪用户的,以及GDPR如何影响这种跟踪。

2.1、欧洲数据隐私法规

2016年4月欧洲议会通过了GDPR。企业有望在2018年5月25日前遵守新规定。新规定要求企业存储和处理用户数据的方式发生重大变化,要求企业更加明确地说明其数据保留政策;对于企业保留用户信息的时间长度以及删除不再用于原始用途的数据的行为,新规定要求企业作出合理解释。此外,它要求企业增强用户数据收集过程的透明度,并为用户提供控制其个人数据存储的其他手段。

我们关注的GDPR的主要部分是新的数据处理知情同意要求。根据法规,企业需要使用户的知情、并获得详细和明确的同意才能处理其个人数据,这要求用户明确选择加入数据收集。该法规的第32条阐明了同意的含义:

应当以明确肯定的行为表示同意,该同意由主体自愿给出,内容具体详细、明确清晰,体现主体的知情。该表示同意的行为表明数据主体对于与她或他相关的个人数据的处理是同意的。该行为可以通过书面声明,包括电子书面声明,或口头陈述作出。同意可能包括在访问互联网网页时勾选选择框,选择信息社会服务的技术设定,或其他在相关语境下能够明确体现出数据主体接受对其个人数据拟处理的声明或行为。沉默,预先勾选的选择框和不作为不能构成同意。

图1(a)板块显示了英国广播公司(BBC)——一家英国新闻机构在GDPR颁布后的Cookie政策示例,图1(b)板块显示了美国某公司的Cookie政策。前者着重强调了法律的要求,规定了出于何种目的存储哪种类型的Cookie,并为用户提供了单独退出Cookie的机会。后者没有明确的选择让用户选择退出数据收集。相反,它指示用户使用基于浏览器的隐私方法,该方法可以控制网站的Cookie。

同意要求是该法律的重要组成部分,但是该法律还有许多其他规定,这些规定加强了用户隐私保护,并要求企业进行实质性变更才能遵守。违反法律的罚款金额很高——最高为2000万欧元,占前一财政年度全球总销售额的4%

图1:示例同意通知(GDPR后的同意对话框)

(a) 美国网站上的标准退出

注意:顶部板块显示的是BBC的GDPR选择同意对话框。该对话框明确涉及网站收集的数据,网站要求用户选择参加所有不必要的数据收集。数据处理的每个单独目的都要由用户单独同意。底部板块显示了美国网站的“选择退出”对话框,该对话框不需要符合GDPR。该网站指示用户管理其浏览器Cookie,并且没有任何直接选项让用户选择退出数据收集。

2.2、用户追踪技术

我们在本研究中重点关注的主要用户跟踪方法是Web Cookie。Cookie是放置在用户计算机或移动电话上的小型文本文件。附加的Cookie在原则上为网站提供了永久标识符。只要相同的Cookie持续存在,它们就可以将不同的会话归类到相同的使用者,从而跨时间和跨网站地跟踪他们。但是,注重隐私的用户可以利用各种隐私方法来控制此标识符的持久性程度。可用的主要手段是基于浏览器的工具,例如手动删除Cookie,“专用浏览”模式或Cookie阻止程序。这些基于浏览器的隐私工具重新生成Cookie标识符,但网站上生成的数据仍会被发送和存储。数据被归类于不同的使用者,即使它们来自同一使用者也是如此。

GDPR选择加入规则为用户保护隐私提供了另一种方法。由用户正确实施和使用的GDPR规定可以说比上述方法提供了更强大的保护,因为它们阻止了所有不必要的信息发送到第三方网站。在这个环境下,用户应该始终选择不将其数据发送给中介,因为它提供了非必要的第三方服务。

因此,从目的方面来说,本研究与众不同的地方在于,基于浏览器的隐私手段不会阻止用户的数据被发送到网站,而只能让用户控制该网站的标识符。GDPR的同意要求则超出了这一步,使用户可以拒绝任何数据被发送到网站。结果,这两者之间的替换可能导致不同的数据生成过程。基于浏览器的隐私工具会产生许多人为的短期用户历史记录,而GDPR的选择退出则是完全删除了数据。

图2:图示不同的隐私工具对观察到的数据的影响

注意:最左边的列显示中介观察到的标识符。左面板表示可以完全观察到每个用户的行为的场景。中间面板显示了从中介的角度看,在GDPR之前,注重隐私的用户4如何将其标识符分为两个单独的标识符。右面板显示了在GDPR下如何将注重隐私的用户的数据不直接发送给中介。

如图所示图2. 该图显示了由四个不同的用户生成的数据。“完全可见基线”显示了一个假设场景,其中四个用户中的每个用户都是完全可识别的。他们生成一系列的浏览会话,每个点对应一个会话,并且点的颜色表示用户是否通过搜索在网站上购买了商品。假设只有用户4主注意到隐私,在GDPR之前,用户4可以通过删除Cookie并重新生成其标识符来保护自己的隐私。图二显示了从中介机构的角度来看,此用户的两个会话与两个单独的标识符相关联。然而,第三面板显示,当GDPR的选择退出可使用时,该用户选择退出,其数据完全消失。

该图还说明了不同的数据方案如何影响用户的可预测性,以及个人的隐私选择如何导致信息的外部性。中介机构的目标是预测标识符下次出现在网站上时用户购买的可能性。中介机构可以使用与标识符关联的完整历史记录,这样就可以设计一个预测规则,该规则取决于该标识符出现在网站上的次数以及购买的频率。在完全可见的情况下,每个用户都有独特的搜索和购买历史记录,因此中间人可以获得独特的信号,并可以相应地调整其预测规则。但是,在混淆的情况下,用户4删除了自己的Cookie,并被划分为两个单独的标识符。现在,与标识符4关联的用户历史与标识符1相同,与标识符5关联的用户历史与标识符2相同。因此,中间人预测用户1和2的行为的能力受用户4所采用的隐私保护的影响,因为即使他们的历史记录不同,它们在中间人看来也是相同的。另一方面,在GDPR下,中介根本没有观察到用户4的数据。尽管这会导致数据量丢失,但它消除了用户4在混淆情况下对用户1和2施加的外部性,并提高了中介机构预测用户1和2行为的能力。

三、数据与实证策略

我们获得了来自匿名中介机构对新的全面数据集的访问权,该数据集记录了美国和欧洲的主要在线旅行社(OTAs)的用户搜索查询和购买交易的全部情况,以及最具影响力的旅行元搜索引擎在2018年1月1日至2018年7月31日之间的搜索记录。我们观察了用户搜索、在线广告、中介对用户行为的预测以及用户购买情况。

3.1、数据说明

分解后的数据包含每次搜索查询和在这些平台上进行的购买以及每个查询的关联广告拍卖。在单个搜索查询中,数据包含:用户标识符、查询时间、查询详细信息(即旅行信息)、平台、浏览器、操作系统的标识符,以及根据中介机构采用的预测性机器学习算法估计用户在网站上进行购买的概率。对于一部分网站,我们观察到用户标识符和购买时间的购买信息。

每个查询都可以触发广告竞价。在这种情况下,数据包含:拍卖中的投标者数量,中标价格以及中标的标识符。此外,如果用户点击产生的广告,则点击本身以及在广告主和中介之间产生的转移将会被记录。

我们的分析利用了此数据集的汇总,按周、操作系统、Web浏览器、网站标识符和国家/地区分类。每周汇总一次数据,以消除不重要的周中波动。此外,GDPR合规日期为2018年5月25日,即星期五,因此,我们的数据汇总为周五到周五的水平。请注意,根据我们的标签,GDPR符合日期对应于一年中第22周的开始。

3.2、实证策略

要了解GDPR的因果关系,我们采用了差异化设计,该设计利用了欧盟GDPR法规的地域范围。该法规规定,与欧盟用户交易的网站必须通过选择加入程序,告知用户明确同意网站使用其数据,而处理非欧盟用户数据的网站则没有义务这样做。即使许多在线旅游公司与世界上多个国家/地区的用户进行交易,但该规范在我们的设置中仍然有效,因为在线旅游网站通常具有单独的、针对特定国家/地区的网站版本,并且仅针对欧盟国家/地区的网站需要符合GDPR要求。

我们的分析着眼于整体政策的效果,而不是政策的具体实施效果。因此,政策的处理日期对应于GDPR合规日期,即2018年5月25日(或第22周的开始)。我们的处理团队几乎包括(当时)欧盟主要国家/地区的旅行网站:意大利、英国、法国、德国和西班牙。我们的对照小组主要由美国、加拿大和俄罗斯的旅行平台组成。这些国家被选为对照国,因为欧盟法律并未直接对其适用,但由于全年的天气和休假方式相似,其季节性旅行方式与欧盟国家的季节性旅行方式相似。

我们对变量结果的主要回归指标如下所示,其中c代表国家/地区,j代表网站,o代表操作系统,b代表网页浏览器,p代表产品类型(酒店或航班),t代表一年中的星期:

EUj表示受该法规约束的网站,after表示当前一周是否在GDPR遵守日期之后(即第22周或更晚),αt表示时间固定效应,δc表示特定国家的网站固定效应,κc表示国家固定效应,ξj表示网站固定效应,ωp表示产品类型固定效应,γo表示操作系统固定效应,ζb表示浏览器固定效应。我们的标准误集中在网站国家/地区级别。

为了验证平行趋势并了解处理效果的持久性,我们进一步利用体现了潜在时变性质的回归指标:

变量定义与以前相同,我们同样在网站国家/地区级别对标准误进行了考虑。

我们在2018年第16周至第29周(即4月13日至7月20日)之间进行回归分析。GDPR合规日期与第22周初对齐。此外,第20周一直是我们回归分析的基准周,因为有些公司在第21周末开始开始实施GDPR,因此第20周应该是不受GDPR直接影响的最后一周网站实施情况。

我们的经验策略以官方GDPR实施日期为中心。但是,每个网站都必须单独执行GDPR规定的变更,并且有证据表明,公司之间的合规操作存在很大差异。此外,即使在遵守法规的公司子集中,用户的响应程度也因实施的性质而异(Utz等,2019)。因此,我们希望在样本中包括有关各个网站的实施时间和实施程度的信息。但是,由于技术限制,我们无法在研究期间直接观察GDPR实施的时间和程度。

因此,我们根据经验性规范观察到的任何影响,都是由于实施GDPR的网站子集实施了GDPR规定而导致的显著后果,以及随着互联网对于隐私重视的提高,广告商和用户行为的变化。因此,由于我们没有全面观察不合规的情况,因此我们的评估可以被视为网站完全遵守该政策的实际影响的下限。

四、消费者对GDPR的反应

在本节中,我们将量化消费者利用GDPR规定的退出能力的程度。我们衡量了GDPR退出对中介机构提供的Cookie和搜索总数的影响。然后,我们研究剩余的选择加入的消费者的组成是否有任何变化。

4.1、退出使用情况

回想一下,我们并不直接观察数据集中已经退出的数据,因为选择退出的消费者不再属于我们的数据集。因此,在时间t,网站j上的消费者总数由真实的消费者数量减去选择退出的消费者数量而得出。

图3显示了单个跨国网站在接近实施日期的样本期间的唯一Cookie,并显示了 GDPR开始时的明显下降。表1的列(1)和列(2)报告回归(1)的结果,以观察到的唯一 Cookie 的总数作为结果变量。我们在级别和日志中考虑规范性。实验结果表明,GDPR 总体上减少了12.5% 左右的唯一Cookie数量。

值得注意的是,这个结果并不意味着12.5% 的消费者使用了退出功能。这是因为观察的单位是Cookie,而不是消费者。如果一个消费者使用了上述基于浏览器的隐私权手段。则可以出现在多个Cookie 标识符下, 尽管如此,调查结果显示消费者使用了相对较多的选择退出功能。

图3:单个跨国网站的唯一Cookie总数。

表1:Cookie和搜索的差异估计数

注意:t统计量在括号中显示。每次回归的标准误都集中在网站-国家/地区一级。我们将第16周到第29周(包括第16周到29周)(4月13日至7月20日)之间的每个因变量汇总到网站-国家产品类型周的水平。第一列和第二列中报告的回归中的因变量是观察到的唯一Cookie数量的日志和总体水平。第三列和第四列中报告的回归中的因变量是记录的总搜索次数和总体水平。

消费者反应的另一项衡量标准是中介机构记录的搜索总数。我们使用记录的搜索作为因变量来重新运行相同的规范,并在表1的第(3)和(4)列中报告结果。我们发现,记录的总体搜索量下降了10.7%,从质量上来说,这与使用唯一Cookie 数量的规范的效果大小在质量上一致。

为了证明这两个结果变量的差异估计的有效性,我们通过估算随时间变化的处理规范(2)来提供证据,表明平行趋势假设在我们的设置中成立。图8显示随着时间的推移所产生的处理效果,并指出平行趋势是令人满意的,以及在我们的样本期内一致的处理效果大小。

4.2、标识符的持久性

一个自然而然的问题是,没有选择退出的其余消费者的构成是否发生了变化。我们对此进行调查的主要方法是跟踪GDPR前后消费者标识符的平均持久性。我们定义了一个标识符持久性度量,该度量可用于跟踪k周后给定一周内可观察到的Cookie返还频率,在其中我们探索k的不同值(1、2、3和4周)。假设Cjt是第t周在网站j上看到的Cookie集合,则度量由下式给出:

在图4,我们将k设置为1并显示单个跨国网站的持续性度量,并随时间推移显示特定国家/地区的网站版本。在GDPR出现之初,欧盟网站的持续性明显增加,但非欧盟网站则没有明显的差异。我们通过使用k∈{1、2、3、4}的持久性结果变量运行基线差异规范来进一步验证这种增长。

图4:单个跨国网站的一周持久性。

表2:消费者持久性的差异估计数

注意:t统计量在括号中显示。每次回归的标准误都集中在网站-国家/地区级别。我们将第16周到第26周(包括第16周到26周)(4月13日至6月29日)之间的每个因变量汇总到网站-国家产品类型周的水平。回归中的因变量分别是k = 1、2、3、4的消费者持久性度量。

表2显示了这种回归的结果,这表明消费者持久性在统计上显著且有意义地增加,并且随着k的增加,这种影响变得更加明显。我们进一步运行随时间变化处理的规范(2),以验证平行趋势是否成立并了解一段时间内效果的一致性。图9表明当k = 1时,与时间有关的处理效果更嘈杂,对于所有k≥2时保持平行趋势,处理效果随时间推移保持稳定。处理效果随着k增长大致相同,即使表6表明平均持久性随着k的增加而下降。例如,在预处理期间,欧洲网站的平均持久性为0.0597,估计的处理效果为0.005,这表明GDPR导致持久性提高了大约8%。

持续性增加的经济意义取决于驱动这种效应的机制,对此我们有两个合理的假设。第一个是选择性同意假设,消费者仅同意他们经常使用的网站进行数据处理。在这种假设下,网站的不频繁用户相比于频繁用户是拒绝访问数据的,那么其余的消费者自然会显得更持久。第二个是隐私权手段替代假设,以前使用基于浏览器的隐私权手段的注重隐私的消费者现在选择加入使用GDPR来保护其隐私。回想一下,利用这些隐私权手段将人为地带来许多短暂的消费者。如果这些相同的消费者选择加入使用GDPR,那么他们将不再出现在中介机构的数据集中,即使他们的真实搜索和购买行为可能没有改变,其余的消费者集合也似乎更具持久性。

如果选择性同意假设是持久性提高的主要解释,那么隐私法规可能会有利于声誉更高的公司或提供更多服务。该假设暗示,从长远来看,对数据收集表示同意这一点,可能会成为信誉较差且服务种类较少的新公司进入的障碍。

如果隐私意味着替代假设是增加持久性的主要解释,那么会产生一些与经济相关的后果。首先,GDPR的好处将是对现有隐私保护的边际效应。其次,GDPR的退出使用将导致加入消费者的外部性,结果可能会削弱他们的隐私保护。这将直接意味着依赖预测的公司遭受的损失可能不会像选择退出的数量那样多,因为这将增强其预测能力。最后,这将允许更好的广告归因和广告效果的度量,将直接影响广告主愿意为广告支付的价格。

图5:一个站点的搜索分布变化

注意:左图显示了GDPR之后的完整样本中有x搜索的消费者份额与GDPR之前的消费者份额之间的差异。例如,最左边的点表示与一次搜索相关的Cookie份额大约下降了12.8%。右侧的数字按周细分了仅与一个搜索相关的Cookie份额,而不是汇总GDPR之前和之后的完整采样周期。

我们提供了建议性的证据,即隐私意味着替代假设在两者中更合理。我们分析了德国的一家大型酒店网站,并研究该网站上每个Cookie的搜索量分布。虽然这两个假设都暗示相对概率质量的下降应集中在支持的较低端,但基于浏览器的隐私保护的主要特征是大量“单一搜索”消费者。这来自使用Cookie阻止程序的消费者,导致每次请求后持续不断地重新生成Cookie,并导致大量人为的只有一次搜索日志的短暂的消费者。因此,在图5中,我们通过一周内的一次搜索来跟踪消费者的总体份额。与隐私意味着替代假设相一致,在GDPR出现之初,我们发现单次搜索消费者的份额出现了不连续的下降,这表明这些消费者选择使用GDPR替代。

我们将进一步研究GDPR之前和之后的消费者搜索的总体分布。图5显示了只有单个搜索者的概率总体似乎下降了,并且概率总体的变化似乎在不同数量的搜索中大致均匀地分布。这提供了有力的证据,至少对于本网站而言,持久性的提高在很大程度上是由“单一搜索者”数量下降导致的,这与我们在隐私权手段替代假设下的预期相符。在选择同意假设下,我们希望概率总体的损失将在搜索中更均匀地分布。

最后,为了为隐私权手段替代假设提供更多证据,我们估计了浏览器和操作系统之间的异构处理效果。尽管选择性同意假说不应暗示这些方面的差异,但是隐私意味着替换假说对于具有更高技术用户和较弱的现有隐私保护的浏览器和操作系统更合理。因此,我们应该期望这些浏览器和操作系统的持久性有更大的增长,这与我们发现的结果是一致的。结果和完整的讨论记载于附录B。

五、GDPR和在线广告

接下来,我们研究GDPR对在线广告市场的影响。具体来说,我们调查了消费者选择退出的程度以及平均可跟踪性的提高对广告客户的消费者平均价值以及广告客户和网站总收入的影响。广告通过实时拍卖出售。出价不会在单个消费者个人资料级别进行,而是在关键字细分级别进行。关键字细分的一个示例是从肯尼迪国际机场飞往洛杉矶国际机场的航班搜索集合。因此,广告客户行为的任何变化都将源于他们对消费者价值的总体估计的变化。出价是按点击提交的,只有当消费者点击广告时,才发生从广告商到中介的付款。

首先,我们使用差异规范来调查唯一标识符和搜索量的下降是否与所投放广告总数的下降相似。表9显示广告数量下降,但下降幅度在统计上并不显著。图11显示了随时间变化的处理效果,证实了这种模式。这表明所显示的广告投放数量不如独特Cookie和搜索记录数量下降那么明显。

表3:广告结果变量的差异估计

注意:t统计量在括号中显示。每次回归的标准误都集中在网站-国家/地区级别。我们将第16周到第29周(包括第16周到29周)(4月13日至7月20日)之间的每个因变量汇总到网站-国家产品类型周的水平。第一列中报告的回归中的因变量是与每个观察值相关的点击总数,第二列是该值的反双曲正弦变换。同样,第三和第四列中的因变量是与广告互动的唯一Cookie总数和双曲正弦逆变换。第五列和第六列中的因变量是总数和总收入的反双曲正弦变换。第七列中的因变量是中间商与广告商之间的平均转移,第八列中的因变量是广告商的平均出价。由于某些结果变量可以取零值,因此为了保留这些观察结果,我们在应用的微观经济学文献中采用了常见的变换,并使用反双曲正弦变换代替了结果变量的自然对数(Bellemare和Wichman,2019).结果转换后的结果变量y由下式给出:。

接下来,我们研究网站和广告客户对整体收入的影响。收入取决于点击次数以及单次点击价格。表3第(1)-(2)列表示,点击总数在统计上显著下降了13.5%,且效果大小与Cookie和搜索总数的下降相称。此外,我们寻找与点击相关的独立Cookie数量的变化,以查看是否有一些变化是由一小部分推动广告收入的消费者驱动的。第(3)-(4)栏显示,不同的点击次数也明显减少。最后,图6显示这些结果变量的随时间变化规格,并显示在GDPR实施日期之后,对点击次数的影响相对恒定。

表3第(5)和(6)栏提供了对收入影响的估算值,尽管在统计上不显著,但为负数。图6表明,随时间变化的处理效果,在GDPR实施之后,收入最初急剧下降,然后开始增加。重要的是,表3第(7)和(8)列表明从广告商到中介的出价和平均转移额有所增加。我们将其解释为在GDPR之后,广告商对剩余消费者的平均感知价值提高。

图6显示消费者平均转移的随时间变化系数,并显示转移在政策之后最初并没有改变,然后逐渐增加。结果,GDPR之后的点击次数立即下降,导致收入立即下降,但是GDPR之后,消费者的平均转化次数增加,导致中介机构和广告客户的部分收入损失得以恢复。

现在,我们探讨提高消费者出价的背后机制。一种可能性是,就像实施GDPR一样,广告商的组成也发生了变化。广告客户可能由于GDPR或其他不相关的原因而进入或退出了欧洲市场。为了探讨是否存在这种情况,我们计算了每个广告客户的中标份额,并跟踪市场集中度的任何变化。我们计算两种最常用的市场集中度度量:集中度比率和赫芬达尔·赫希曼指数。利用先前定义的规范来查看市场集中度是否有任何变化。此分析的详细信息在附录D. 我们发现竞标者集中度的统计意义重大,但经济意义却很小。由于广告商集中度的提高,应该降低价格,而不是提高价格。因此,我们得出的结论是,需求方的变化很可能不是观察到价格提高的原因。

图6:总点击次数,收入和平均转移的周处理效果

一个更合理、与结果直接相关的解释是:剩余的消费者现在更容易被追踪,因此广告商更能够将购买归因于广告。广告商根据广告的转化率评估消费者的价值,该转化率是在点击广告后最终购买商品的消费者比例。但是,有效的衡量标准要求广告商和中介机构可以将购买归因于广告,这取决于他们跨时间和网站跟踪消费者的能力。例如,如果消费者在单击广告后删除了其Cookie,然后随后购买了商品,则广告商和中介将无法将购买归因于广告。这表明消费者利用了浏览器提供的隐私权手段,意味着广告商对消费者的感知价值会向下倾斜。如果使用这些隐私权手段的消费者替代地使用了GDPR提供的隐私权手段,那么他们就不会出现在广告客户的样本中,这将导致广告客户逐渐增加他们对消费者的感知价值。

作为说明性的例子,假设有五个消费者点击广告。其中一个(下文称为消费者A)删除了Cookie,但最终购买了商品,而其余四个中,假设其中两个最终购买了商品。因此,无论消费者A的行为如何,广告客户的估算转化率均为0.4,这仅在消费者A从未购买的情况下才是正确的。相反,假设可以选择GDPR,并且消费者A被从广告商的样本中删除,因此从不点击广告。现在,广告商的估计转化率是0.5,而不是0.4。因此,不管消费者A的真实行为如何,消费者的感知价值都会微弱增加。从观察到的样本中剔除与消费者A类似的个体只会微弱地增加广告商的感知价值。

因此,我们在广告市场中观察到的变化与第四部分的观察一致. 这些结果强烈表明,GDPR通过提高消费者的追踪能力和广告效果评估能力,使广告商更容易评估消费者的价值。

六、GDPR与消费者行为预测

在本节中,我们将研究GDPR引起的变化是否会影响到中介预测消费者行为的能力。根据我们的分析,有三个主要的原因导致我们观察到预测能力的变化。首先,GDPR大大减少了数据总量。其次,剩余的消费者具有更长的历史记录并且更容易追踪。第三,符合我们的图2所显示,GDPR可能揭示消费者行为与消费者历史记录长度之间的相关结构之前因使用其他隐私工具而被混淆。我们希望第一个效果会降低预测性能,第二个和第三个效果会提高预测性能。

我们给出了预测问题的设置和中介机构使用的算法。这使我们能够了解GDPR对“现场”预测问题的影响。它的问题是根据中介观察到的有关消费者的历史记录来预测消费者是否会从其访问的站点购买商品。具体来说,其算法根据消费者是否会在某个时间段内在当前网站上购买产品,将消费者的搜索分为两类:购买者和非购买者。每个查询被分类为

对每一个在中介人观察到的第k个查询上的网站j上获取到的Cookiei。对于每一个Cookie,我们都会在网站j,Xij1,Xij2,...,Xijk上进行一系列搜索,如果消费者最终在此网站上进行了购买,则时间记录在网站j上购买商品的时间对于我们观察到的每个Xijk,如果在查询的N天内进行购买,则yijk= 1,否则,yijk=0。尽管实际上N的值取决于平台,但对于我们的分析,我们将焦点限制在N = 2。我们将类别比例表示为与购买者类别相关的搜索比例。

对于每次搜索,中介都会产生一个概率估计值来表明消费者是购买者:

pijk =Pr(yijk=1|Xij1,...,Xijk),i,j,k 3)

每次搜索我们都会观察到中介的预测pˆijk。

在实践中,对于其自身的操作,中介在每次搜索过程中实时将每个消费者分为两组。该确定是基于消费者的“得分” pijk是高于还是低于所选阈值Pˆ。

6.1 预测评估措施

为了评估由中介机构部署的分类器的性能,我们使用了机器学习文献中的两个标准度量:均方误差(MSE)和ROC曲线下面积(AUC)。MSE计算与预测的估计值Pˆijk相关的平方误差的平均值,相对于已实现的二进制。具体来说,让Ij为网站j上所有消费者的集合。并将Kij设为网站j上消费者i的所有事件的集合。那么,网站j的MSE为MSE低表示预测性能好。

尽管被普遍使用,但是MSE在当前目的上仍有两个缺点。首先,该度量对类分布的偏度和变化很敏感。在当前情况下,大约90%的搜索结果是未购买,这意味着估计值pˆijk往往较低;直观地说,为了最小化与更“频繁”的事件(非购买)相关的错误,估计将容忍更多与“不频繁”事件(购买)相关的错误。现在假设类分布发生了变化使得更多的搜索导致购买。这确实是GDPR之后我们数据中发生的情况。即使消费者可能没有那么难以预测,由于与公式关联的凸度,MSE也会人为地上升,尤其是在预测算法无法适应分布变化的情况下。其次,也许与第一个问题无关,但MSE并不是中介机构专注于其运营以及与合作伙伴进行沟通的措施。相反,它专注于AUC(曲线下的面积),即我们现在转向的对象。

图7:示例ROC曲线

注意:此图描绘了ROC曲线,该曲线描绘了随着分类阈值的变化,分类器的I类错误和II类错误之间的权衡。ROC曲线下的区域由AUC表示,并提供了预测性能的标量度量。

AUC代表的是接收器工作特性(ROC)曲线下的面积。ROC曲线依次测量分类器在类型I(“误报”)与类型II(“误报”)错误之间进行权衡的程度。首先,将分类阈值固定在任何Pˆ。然后,如果pˆijk> Pˆ,则得分为pˆijk的消费者被分类为购买者,而如果pˆijk<Pˆ则被归为非购买者。这个会导致误报率-将非购买者错误分类为购买者的比率:

同时,这将产生真实的正利率,或将购买者正确分类为购买者的比率:

然后,ROC描绘了预测机器针对其可容忍的每个FPR级别实现的TPR级别。

通过更改分类阈值Pˆ来跟踪(FPR,TPR)的轨迹来获得ROC。ROC的斜率对应于它可以容忍的I型错误附加单位(比率)的预测增益的附加功率(比率)。对于随机预测变量,此斜率将为1,而ROC将为45度线。优于随机预测器的ROC将位于该45度线以上。图7描绘了典型的ROC曲线。

AUC测量ROC下的面积,它提供了预测性能的简单标量度量。如果预测技术有所改善或用户变得更加可预测,那么ROC将会上升而AUC将增加。除了中介机构着重于该措施这一事实外,AUC不变于类分布的变化(福塞特, 2006). 例如,假设购买者的比例增加了,只要预测技术保持不变,这不会改变FPR和TPR,因此ROC和AUC保持不变。

这两种方法涵盖了不同方面:AUC捕获了分类器将两个不同的类分开的能力,而MSE捕获了估计概率的准确性。因此,我们将报告对两者的影响,因为它们提供了两种质量上不同的预测性能指标。

6.2 预测表现

在本节中,我们将研究GDPR实施后对可预测性的即时影响。我们采用了与我们在第三节中描述相同的经验策略。相同的经验设计是有效的,因为中介机构仅使用来自各自网站的数据为每个网站训练单独的模型。因此,由于GDPR对欧盟网站收集的数据进行的任何更改都不会影响非欧盟网站,但是,我们的分析中有两个限制因素。第一是对数据的限制;与搜索和广告数据不同,预测性能需要额外的购买数据,这仅限于一部分网站。第二个是,模型是利用数据的滑动窗口进行训练的,这意味着,如果基础数据分布突然发生变化,则调整时间可能会很慢,在不同网站上可能会有所不同。

表4显示了所有相关预测结果变量的差异估计值。首先,第(1)栏显示GDPR导致购买者比例小幅但显著增加。同时,第(2)列中与平均预测概率无关的系数表明,公司的分类器对该变化的调整很小。图14显示了这些结果变量的时变规范,表明平均预测概率保持不变,而类比例波动似乎增加。

表4:预测结果变量的差异估计

注意:t统计量在括号中报告。每次回归的标准误都集中在网站国家/地区级别。我们将第16周到第29周(包括第16周到29周)(4月13日至7月20日)之间的每个因变量汇总到网站国家产品类型周的水平。第一列报告的回归中的因变量是与每个观察值相关的购买者比例,第二列是平均预测概率。第三列和第四列中的因变量分别是MSE和AUC。最后,在第五列和第六列中,因变量是MSE的条件,它取决于观察的真实类别。

第(3)栏和第(4)栏分别显示了GDPR对以MSE和AUC衡量的中介的预测性能的影响。第(3)栏显示GDPR之后,MSE显著增加。但是,与其说这表明预测性能在恶化,不如说是类别比例变化和分类器缺乏调整的假象。实际上,第(5)和(6)列表明以真实类为条件的MSE尚未提高;如果有的话,它们在统计上微不足道地下降了。如上所述,由于分布偏斜,购买者比例的增加将提高MSE。事实上,第(4)列显示了对AUC的处理效果的正估计,表明预测的边际改善,尽管在统计学上并不显著。AUC的边际改善表明,即使估计概率的准确性降低,中间人分离这两个类别的能力也有所提高。这一观察结果与我们对上述隐私意味着替代假设的预期一致。

最后,图15显示MSE和AUC的时变规范的结果,表示MSE最初有所上升,然后最终下降。这与以下观点一致:MSE的大部分增加是由于缺乏快速的结果调整。此外,AUC的增加不是直接在GDPR之后发生,而是逐渐发生。

总体而言,我们的结果表明GDPR并未对预测消费者行为的能力产生负面影响,即便有的话,处理结果反应的迹象也表明影响的方向是相反的。这通过以下运用进一步验证附录G它确定了预测性能的预期“长期”变化,这是由于对第4节. 此运用表明,可跟踪性的提高应导致预测性能的提高,而GDPR导致的数据总体大小的变化不应对预测性能产生重大不利影响。

七、结论

在本文中,我们通过将GDPR引入作为自然实验来对数据隐私监管的效果进行实证研究。我们使用来自与全球许多在线旅行社签约的中介机构的数据,这使我们能够研究GDPR对一系列综合结果的影响。我们的分析着重于GDPR的规定,该规定要求公司征询消费者的明确同意才能存储和处理其数据。

我们的结果描绘了一个新颖而有趣的画面,说明了消费者的隐私决定(尤其是其保护自己的隐私的方式)如何影响整个经济领域,包括其他消费者以及依赖消费者数据的公司和广告商。GDPR和最近的CCPA(加利福尼亚消费者隐私法案)等法律提供了强大而有效的隐私保护手段,应通过消除数字足迹来帮助关注隐私的消费者保护其隐私。因此,这些消费者显然是法律的赢家。但是,对其他方面的影响尚不清楚。我们的结果表明,消费者改变隐私保护方式的可能性使共享数据的选择加入的消费者对与其共享数据的公司更可追踪,并且可能更具可预测性。如果增加的可识别性弥补了数据的减少(由于退出),如附录G,那么使用消费者数据的公司也可能成为赢家。那些选择加入的消费者呢?他们的福利将取决于公司如何使用他们的数据。如果将他们的数据用于针对他们的需求的广告和服务,即使他们选择加入的决定可能没有考虑到外部性,他们也很可能成为隐私法的赢家。但是,如果将他们的数据用于掠夺消费者剩余(例如通过个性化定价),则外部性可能会损害他们。

尽管这些定性含义很明显,但我们的简化形式方法不允许我们量化对消费者和广告商的福利影响。我们将对我们确定的相互作用进行结构分析,以便以后的工作,以便更好地了解磁性材料。影响消费者和广告商的每个渠道的幅度。鉴于与数据隐私法规相关的合规成本高昂,以这种方式分解福利效应是研究的一个富有成果的方向,对于进一步建立我们的见识以指导设计和理解此类法规至关重要。

最后,我们的论文对在线旅游行业和基于关键字的广告市场具有更广泛的意义。与数字经济中的许多市场一样,该行业的公司与诸如Google之类的大型技术公司之间的竞争也日益激烈。Google的业务范围遍及许多不同的在线市场,消费者除了接受数据处理外别无选择。结果,虽然我们的结果表明,增加的同意要求对公司可能并非完全不利,但如果消费者在其他市场(例如针对行为的广告市场)以我们的估计费率类似地使用这种选择退出功能,则未来工作的另一个重要方向是要了解这种法规在多大程度上使这些市场中的公司处于不利地位。我们相信,这些见识和未来工作的方向对设计美国和世界各地遵循GDPR的许多拟议法规很有用。

附录

A 附加的消费反映图表

图8:每周处理效果(Cookie和记录的搜索)

表5:销售活动的差异性预测

注意:t统计量在括号中报告。每次回归的标准错误都集中在网站国家/地区级别。我们将第16周到第29周(包括第16周到29周)(4月13日至7月20日)之间的每个因变量汇总到网站国家产品类型周的水平。第一次回归中的因变量是存在中介的页面总数。第二回归中的因变量是与中介相关联的广告单元总数。

图:每周处理效果(消费者持久性)

表5:消费者持久性摘要统计

注意:汇总统计数据是根据GDPR之前的样本时段计算得出的,其中显示了k = 1、2、3、4时整个欧盟和非欧盟地区的平均消费者持久性值。

图10:消费者持久性分布(1周)

B 用户持久性异质性处理效果

我们通过估计跨Web浏览器和操作系统的异构处理效果,进一步研究了增加用户持久性的机制。我们利用这样一个事实,即不同的浏览器和操作系统会吸引具有不同技术水平的不同类型的个人,并提供不同级别的隐私保护。该研究提供了进一步的证据来区分选择性同意和隐私工具替代假设,因为选择性同意假设将预测在这些维度上的持久性不应存在异质性,而隐私工具替代假设将预测相反的结果。

首先,我们研究跨Web浏览器的异构处理效果,并将注意力集中在最受欢迎的Web浏览器上:Google Chrome,Microsoft Edge,Mozilla Firefox,Internet Explorer,Opera和Apple Safari。我们考虑以下规范:

我们可以认为存在两个维度,持久性的差异变化会因Web浏览器而异。首先是浏览器中的人口统计型选择,并且在各种隐私手段之间进行替代要求用户有一定的技术水平(即,用户需要知道如何管理Cookie)。例如,Internet Explorer(IE)是一种主要在较旧的计算机上使用的Web浏览器,能够吸引较老的、技术水平较低的用户。因此,如果技术更先进的用户的浏览器上处理效果更强,那么隐私工具替换假设似乎更合理。第二个是浏览器之间存在不同级别的隐私保护。例如,适用GDPR的Apple Safari内置了广泛的隐私保护手段,而Google Chrome浏览器则拥有更为宽松的隐私控制。结果,我们可能希望Safari用户对GDPR提供的隐私保护手段的重视程度会降低,从而导致持久性的增长幅度较小。

表8显示的是使用Chrome作为省略的浏览器的回归结果。除Internet Explorer持久性几乎没有变化外,其他浏览器的处理效果是一致的。相对于Chrome,在Safari中估计的处理效果要低一些,但事实并非如此。这提供了进一步的证据支持隐私工具替代假设。

接下来,我们研究跨操作系统的异构处理效果,并缩小样本范围,仅查看最受欢迎的操作系统:Android,Chrome OS,iOS,Linux,Mac OS X和Windows。我们考虑以下规格:

一个重要的区别是移动操作系统和桌面操作系统之间的区别。与台式机相比,在移动Web上进行Cookie管理的隐私保护手段很少,而且用户在移动设备上的行为通常有所不同。为了与隐私工具替换假设保持一致,我们应该期望在台式机上的持久性与移动设备相比具有更大的差异,而与选择性同意假设的保持一致,我们应该期望没有差异。

表7显示Windows作为省略的操作系统时的回归结果,这表明Android和iOS在k=1、2时持久性没有或几乎没有增加,但在k=3、4时持久性似乎增加了。对于Android而言,这种影响是显著且最强的。在其他情况下,不同操作系统之间的处理效果大致相同。由于在移动设备和台式机上的持久性之间似乎没有什么区别,因此这似乎有利于隐私工具替代效果,但没有提供确凿的证据。

表7:按周划分的用户持久性-OS异构处理效果

注意:t统计量在圆括号中报告。每次回归的标准误都集中在网站-国家/地区级别。我们将第16周到第26周(包括第16周到26周)(4月13日至6月29日)之间的每个因变量汇总到网站-国家-产品类型-周的水平。我们仅将重点限制在最受欢迎的操作系统上。回归中的因变量分别是k = 1、2、3、4的用户持久性度量。已处理表示观察结果是否与欧盟网站相关联并且是否超过GDPR实施日期。已处理的操作系统表示特定操作系统的异质处理效果。os的系数表示os固定效应的估计值。支持的操作系统是Windows。

表8:用户持久性-浏览器异构处理效果

注意:t统计量在圆括号中报告。每次回归的标准误都集中在网站-国家/地区级别。我们将第16周到第26周(包括第16周到26周)(4月13日至6月29日)之间的每个因变量汇总到网站-国家-产品类型-周的水平。我们仅将重点限制在最受欢迎的操作系统上。回归中的因变量分别是k = 1、2、3、4的用户持久性度量。已处理表示观察结果是否与欧盟网站相关联并且是否超过GDPR实施日期。已处理的操作系统表示特定操作系统的异质处理效果。os的系数表示os固定效应的估计值。支持的操作系统是Windows。

C 广告和拍卖数据

注意:t统计量在圆括号中报告。每次回归的标准误都集中在网站-国家/地区级别。我们将第16周到第29周(包括第16周到29周)(4月13日至7月20日)之间的每个因变量汇总到网站-国家-产品类型-周的水平。因变量是传递给用户的广告的日志和总体水平。

图11:每周的处理效果(已投放的广告总数)

图12:每周处理效果(平均出价)

表10:摘要统计信息,出价和转账

注意:该表格报告了欧盟和非欧盟在GDPR之前的时期内,平均出价和平均转账。

D、广告和投标人集中度

要注意,重要的是这些措施排除了一些需求驱动的变化,但并非全部。尤其是广告客户本可以在整体集中度上没有任何变化地进行炮制,而我们的工作也不会加快这一步。但是,这是最可能和最容易衡量的渠道,通过该渠道可以进行需求驱动的变化,因此,我们的主要重点是确定观察到的结果是否是需求驱动的。表12显示了我们的主要指标CR-1,CR-3,CR-5和HHI作为结果变量的结论。尽管影响的规模在经济上并不重要,但所有这些措施的市场集中度在统计上都有显著增加。表11显示各种集中度指标的汇总统计数据,并表明例如CR-5市场集中度增加的影响大小约为3%。

图13显示了各种市场集中度度量随时间变化的处理效果,所有这些定性都遵循相同的模式。市场集中度的提高主要发生在第20周之前,此后保持相对稳定。但是,直到25周,消费者的平均价值才出现逐步增加,而不是突然增加。由于市场集中度的变化在经济上似乎并不重要,而且集中度增加的时机与消费者价值的增长并不吻合,因此这提供了证据,表明消费者价值增加并非由成分变化驱动广告客户。

表11:汇总统计,市场集中度

注意:该表格报告了GDPR之前的欧盟和非欧盟国家采取的几种市场集中措施的手段。前三列显示了根据投放到消费者的广告份额分别排名前1名,前3名和前5名广告商的平均市场份额集中度(分别为1、3和5)。第四列显示使用相同的市场份额定义的平均赫芬达尔-赫希曼指数(HHI)。

表12:市场集中度的差异估计

注意:t统计量在括号中显示。每个版本的标准误都集中在网站-国家/地区级别。我们将第16周到第29周(包括第16周到29周)(4月13日至7月20日)之间的每个因变量汇总到网站-国家产品类型周的水平。前三栏中报告的区域中的因变量是根据投放到消费者的广告份额来排名,排名第1位,第3位和第5位的广告商的市场份额集中度(分别为1、3和5)。第四栏中的因变量是使用相同市场份额定义的赫芬达尔·赫希曼指数(HHI)。

图13:每周处理效果(市场集中度)

E 预测数据

图14:每周处理效果(平均预测概率和类别比例)

图15:每周处理效果(MSE和AUC)

F MSE细分

在本节中,我们将在2000年的差异分析中进一步调查MSE升高的原因。第6节. 为了做到这一点,我们在分类环境中利用了MSE的标准分解方法,并研究了GDPR对分解的每个组成部分的影响。对于MSE,二元分类问题可以分解为校准和细化部分(德格鲁特和菲恩伯格, 1983)。校准组件指示估计的概率与真实类别比例匹配的程度。细化成分表示预测的有用性,其中更细化的预测是更接近确定性的预测(即,接近0或1,其中0.5是最不确定的)因此,具有良好MSE的分类器经过良好校准和更细化。这个分解需要将估计的概率离散化为一系列K区间。对于符号,pk表示估计的第k个概率区间,nk表示落入第k个区间的概率估计数,ok表示数据中第k个区间中的真实类别比例。这使我们可以重写(4)为:

我们使用MSE分解的每个组成部分作为结果变量来运行相同的规范。这些结果报告在表13. 结果表明,GDPR后,精制组分和校准组分均增加。这两个分量对MSE的增加几乎都负有同样的责任,而校准分量只稍微大一点。校准误的增加归因于分类器对后处理的缺乏快速调整GDPR消费者分布导致估计的类别概率不再与经验类别概率紧密匹配,但是,细化误差的增加表明存在部分调整,因为这种增加是预测类别(即类别比例)不确定性增加的结果(更加接近0.5。)。

注意:t统计量在括号中报告。每次回归的标准误都集中在网站国家/地区级别。我们将第16周到第29周(包括第16周到29周)(4月13日至7月20日)之间的每个因变量汇总到网站国家产品类型周的水平。第一列中报告的回归中的因变量是MSE的校准组件。第二列中报告的回归中的因变量是MSE的细化部分。

G 消费者持久性和数据规模对预测的影响

分析中第6节GDPR对公司预测能力的影响受到数据限制,并且其预测算法明显缺乏对后GDPR环境的调整。因此,为了完全理解预测的含义,我们现在采用另一种方法。现在,我们不再问企业的预测在善后方面会受到实际影响,而是要问当算法完全调整后,从长远来看,预测绩效会如何。

如在第4节,GDPR减少了中介观察到的消费者数量,但剩余的消费者更容易被追踪。我们的方法是通过比较两个维度不同的网站来研究这两个特征(观察到的消费者数量和观察到的消费者的持久性)如何对横截面预测性能的两种度量产生影响。我们使用网站-产品类型-星期级别汇总的数据集。我们将注意力集中在GDPR之前的1月19日至4月6日之间。我们再次依靠这样的事实,即中介仅利用来自每个单独网站的数据来训练该网站的模型。这样可以确保每个网站的预测仅响应该网站的数据大小和持久性。

我们运行以下回归,其中因变量predtcjp代表国家j在时间t处产品类型p的网站j在国家c中的预测误差。固定影响与主要经验性规范中的相同,标准错误在网站国家/地区级别上进行聚类,与以前的规范相同:

表14使用MSE和AUC作为因变量,显示与预测错误相关的总记录搜索相关的回归的OLS估计。我们报告在有和没有网站和网站国家固定影响的情况下运行回归的结果,但是我们的首选规范是没有网站和网站国家固定影响的规范。对应于列(1)和(3)中的回归结果表14. 正如预期的那样,总记录搜索量的增加会显著增加AUC,并降低MSE,尽管这并不明显。回想一下,我们对GDPR数据丢失量的点估计是10.7%。在这种数据丢失的情况下,预测误差下降的幅度相对较小.记录搜索量减少了10.7%,只导致AUC减少0.0007。

表16使用MSE和AUC作为因变量,显示将四个星期的消费者持久性与预测误差相关的回归的OLS估计。和以前一样,我们有带或不带网站和网站国家/地区固定效应的回归分析,并且主要集中在没有它们的回归分析上。回想一下,我们之前发现GDPR导致四周持久性增加0.00505。结合表16的估计,则意味着AUC增加0.013,MSE减少0.007。

将这两个结果放在一起,就可以得出这样一个事实,即数据总体规模的下降对可预测性几乎没有影响,但是根据AUC和MSE,数据性质朝着更易于识别的消费者的方向变化应该会稍微改善预测。但是,这并不意味着数据规模并不重要,这与标准的统计直觉背道而驰;相反,预测能力随着数据规模的增加而大大提高。相反,由于GDPR的影响,数据规模的变化从长远来看不足以引起有意义的预测误差变化。但是,从长远来看,GDPR导致的持久性增加应该导致预测能力的提高。

注意:t统计量在括号中报告。每次回归的标准误都集中在网站国家/地区级别。我们将第4周和第14周(包括第4周和第14周)(1月9日至4月5日)之间的每个因变量汇总到网站国家产品类型周水平。第一列和第二列中报告的回归中的因变量是AUC。第三列和第四列中的因变量是MSE。第(1)栏和第(3)栏报告的回归结果不包括网站或网站国家的固定效应,而第(2)和(4)栏报告的回归结果包括这些固定效应。

注意:t统计量在括号中报告。每次回归的标准误都集中在网站国家/地区级别。我们将第4周和第14周(包括第4周和第14周)(1月9日至4月5日)之间的每个因变量汇总到网站国家产品类型周水平。第一列和第二列中报告的回归中的因变量是AUC。第三列和第四列中的因变量是MSE。第(1)栏和第(3)栏报告的回归结果不包括网站或网站国家的固定效应,而第(2)和(4)栏报告的回归结果包括这些固定效应。“两周搜索总数”和“三周搜索总数”变量是通过将分别在两周和三周的滑动窗口中为每个观察值观察到的搜索总数相加而得出的。

注意:t统计量在括号中报告。每次回归的标准误都集中在网站国家/地区级别。我们将第4周和第14周(包括第4周和第14周)(1月9日至4月5日)之间的每个因变量汇总到网站国家产品类型周水平。第一列和第二列中报告的回归中的因变量是AUC。第三列和第四列中的因变量是MSE。第(1)栏和第(3)栏报告的回归结果不包括网站或网站国家的固定效应,而第(2)和(4)栏报告的回归结果包括这些固定效应。

声明:本文来自数字经济与社会,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。