上游为何不愿对外经营数据？控制降级、衍生数据与不确定性下的经营决策

今天和大家分享的是公号君对三权分置的第三篇学习笔记

引言：从“经营什么”到“是否经营”

这是关于数据产权结构性分置的第三篇学习笔记。前两篇分别讨论持有权与使用权：狭义持有权指向合法控制状态及其防御性保护，其边界与救济大量依赖行为规范具体化，独立增量有限【数据持有权的两条路径：三权完全切割 vs. 持有权母权化】；使用权是真实但不自足的权利模块，其对外化实为“上游经营权许可＋下游取得使用权”，而这一授予会在下游形成衍生数据。【越自主，越难流通？数据使用权外部化的结构张力】

本篇转向经营权。官方将经营权界定为权利人通过转让、许可、出资或者设立担保等方式对外提供数据的权利，功能上类比有形财产的处分，意在使数据上的产权对外流转、进入市场。【图解 | 数据产权制度】

经营真正递给下游的，有意义的内容，显然不是持有权【见数据持有权的两条路径：三权完全切割 vs. 持有权母权化】，而是授权使用，即使下游的使用获得合法依据的许可；下游一旦凭该许可产出衍生数据，即在下游形成一项新的客体，上游对其控制随之改变。前一篇讨论的是经营“移转了什么”。本篇所问，是更靠前的一个问题：在现实条件下，上游是否会行使经营权、将数据对外提供？

本文的判断是：会，但相当有限。更准确地说，依赖数据维系持续关系的上游——即在【越自主，越难流通？数据使用权外部化的结构张力】中界定的“依赖数据维持竞争优势的上游，主要是平台企业、掌握核心用户数据的企业、拥有高价值工业数据或不可替代训练数据的主体”——倾向于不以开放、原样、自主的方式对外经营，而转向受控使用，或不予经营。

其缘由不在于上游低估数据的交易价值，而在于其对外经营时须面对一组无法消除、且大多属结构性的不确定。下文先说明该控制何以降级，再说明何以任何处理方案都无法在事前消除该不确定。

一、从授权使用到控制降级

上游对原始数据的控制具有对世效力：数据由上游持有，下游欲合法使用须经其授权；这种控制自动生效，不以与特定相对人订立合同为前提，可对抗一切人。下游凭授权产出的衍生数据则是一项新客体，于其上享有创设者地位的是下游而非上游；按通行理解，衍生数据与前手的继受关系被切断，下游对其独立享有持有、使用与经营。这意味着上游在原始数据上的对世控制并不自动延伸至衍生数据；上游对衍生数据的主张，只能以合同为依凭。

即使合同能够被周延起草与完全执行，这一降级依然成立，因为它关乎上游主张的性质，而非其可执行性：上游的对世控制及于原始数据，并不及于衍生数据；对衍生数据，上游至多是以合同为据、仅约束相对人的请求权人，而非可对抗一切人的权利人。易言之，衍生数据使上游的控制由对世效力降为对人的请求权——由自动、可对抗一切人的地位，降为须逐项约定、仅拘束特定相对人的合同请求权。

这一降级的程度并不均匀。对抽象型衍生数据——模型、评分、指数——降级最为彻底：原始数据已不存于其中，其价值被抽取，上游既无对世控制可言，被抽取的价值亦无从回收。对仍含有原始数据、或由多方数据融合而成的衍生数据，上游可能保留一项共同持有、可对抗他人的地位；官方就数据融合的表述亦为各方可同时持有、对外流转原则上须经其他参与方同意。控制降级，正是自抽象型一端起，向融合型递减。

二、两位学者：合同缺口的事后补全

真正棘手的，不是有约定的情形，而是合同沉默、约定不明或被违反时，衍生数据归谁、上游能否要回。近期有两种具有代表性的处理，均针对这一缺口。

一种以法经济学进路展开，将其作为权益冲突的配置问题，借卡拉布雷西—梅拉梅德框架在财产规则与补偿规则之间求其最优，给出一套随交易成本与法院估值误差而切换的弹性规则。其基准偏向加工者：交易成本较低时，善意加工者径直取得衍生数据权益而无须补偿；该进路反对多方共有，以免落入反公地，并将加工者自身投入乃至融合进来的他方数据价值一并计入加工增值；对上游的保护则落于债权一侧，主张以知识产权式的强制许可使用费替代不当得利。【许可：猎鹰的回旋：衍生数据的财产规则 | 中法评 · 思想】

另一种以教义学进路展开，类推民法典的添附规则，将衍生数据视为独立于原始数据的新客体。其识别要件叠加实质改变、价值显著增值与不可逆转；归属上，有约定从约定，无约定则依贡献赋权与“数尽其用”归于加工者，且取得衍生数据权并不以加工者享有原始数据使用权为前提——即便原始数据系经非法爬取取得，违法性也仅影响责任承担，不改变衍生数据这一新成果的归属。上游的保护则分流为两路：人格性权益由个人始终保留，财产性救济经由不当得利或侵权。【申卫星：衍生数据的识别标准与产权配置】

两条进路在方法上分歧明显，却在两点上汇合：其一，均将上游对衍生数据的保护由对世控制降为仅对相对人的请求权——不当得利、侵权或强制许可费；其二，均将无约定时的剩余权益偏配于下游加工者，并以数据非竞争、加工不灭失原始数据，以及激励加工创新为之正当化。这恰好将第一节的控制降级，作为各自论证的前提予以接受。

三、事后分配与事前参与的错位

这两套方案处理的是同一个问题：数据已经对外提供、纠纷已经发生，衍生数据归谁、补偿几何。这属事后分配，且相当精细。但二者均以一项前提为默认——数据已被分享。更靠前的问题是：在这样一套机制之下，上游是否会在一开始即将数据对外提供？这属事前参与。

解决事后分配，并不解决事前参与；偏向下游的缺省规则，甚至可能加重事前参与的障碍。缺省规则越向加工者倾斜，上游对外经营的预期损失越大；预期损失越大，上游越倾向于不予分享；上游越不分享，加工者越缺乏可资利用的源数据。其结果，是激励了下游的利用，却抑制了上游的供给。

前述法经济学进路已注意到相邻的一点——过分贬损源数据权益会导致数据投资不足；但其以此为保留若干源数据保护的理由，而更具决定性的边际在于另一种行为：上游拒绝将已有数据对外分享。下文展开的，正是支撑这一拒绝的那组不确定。

四、上游事前面对的不确定

上游决定是否对外经营时所面对的不确定，大致分为两类：一类是归属规则可以介入、却仍无法消除的；一类是任何归属规则都无从触及的。阻却上游的，主要是后一类。

第一类，是归属规则可以介入、却无法在事前消除的不确定。

其一，定性的不确定。源数据经加工后，要么被认定为独立于原数据的"衍生数据"，其持有、使用、经营权益原始归于加工者，上游就该成果至多保留一项补偿请求权；要么仍属原数据，上游权益不变。二者非此即彼，直接决定上游就加工成果是否还有归属权益。但衍生数据的识别要件尚无定论：一种以实质改变、价值显著增值、不可逆转三者并备为要件，另一种以价值显著提升为核心，将不可逆转降为下位的证明性标准。要件未定，加工成果归入哪一方，在事前无法预判。

其二，归属默认的不确定。合同难以周延，未作约定的部分，归属回落到缺省规则。而缺省规则在学理上并不统一，其较为确定的部分又偏向加工者。规则的可预测并不改变其内容上的不利：可以预见的结果，恰恰是上游对衍生数据丧失控制，仅余一项对相对人的补偿请求权。

其三，主观状态的不确定。加工者取得原数据时为善意还是恶意，是否影响其取得衍生数据权益，两种进路并不一致：一种将善恶置于权利取得的要件——恶意者不取得权益，并负返还或赔偿义务，善意者取得权益，仅承担相当于许可使用费的补偿；另一种认为善恶不影响归属，只在责任范围上有别。上游事前无从确定将落入哪一种评价。此外，授权范围约定得越宽泛，越难认定加工者有逾越授权的过错，其反而越容易被评价为善意，从而合法取得全部衍生数据权益。

其四，救济计量的不确定。即使上游胜诉，所得也只是一项数额不确定的请求权。补偿的计量，在使用费、利润分成与全部得利之间，随主观状态与所选规则而浮动；其参照标准，还需借自知识产权的许可比例。上游让渡的是一项确定的、可对抗他人的地位，换得的却是一项只能对相对人主张、且内容与数额都不确定的请求权。

第二类，是任何归属规则都无从触及的——这构成阻却上游对外经营的主要因素。

其一，预见与起草的不确定。数据的价值具有组合涌现的特征：最具价值的利用方式，往往是下游将源数据与其他数据、其他模型重新组合而成，且在缔约时点无从预见。当事人无法对无从预见的衍生成果事先设定限制；加之衍生可多级叠加，纵然约束了第一层，二阶、三阶衍生仍在约束之外。这并非合同拟定是否周密的问题，而是合同必然不完全，其缺口恰落在价值最高、风险也最大之处。

其二，发现与溯源的不确定。下游是否将数据用于模型训练、是否超出授权范围、是否再行许可，上游往往难以查知：衍生数据无形，处于下游内部，可经融合，亦可能以去标识化冒充匿名化。上游既难以发现，纵有察觉，在融合与抽象之后亦难以举证、溯源。

其三，相对性、链条与偿付的不确定。合同仅拘束相对人。相对人违约转让给第三人，或第三人径行爬取下游所产出的数据产品，上游均无从约束；而依前述教义学进路，该爬取者反就其衍生数据取得完整权利。相对人亦可能破产或被并购，致上游的债权落空。

其四，融合与共有的不确定。下游将源数据与他人数据融合，形成混合客体。官方表述为各方可同时持有、对外流转须经共同同意，上游本可据此保留一项共同持有、可对抗他人的地位；但学说倾向不一：一者明确反对共有、径归加工者，一者以不可逆转为要件而将此类成果排除于衍生数据之外。融合之后上游是否仍保有一项可对抗他人的地位，因此并无定论。

其五，抽象价值的泄漏。即便合同要求删除衍生数据集，下游模型已习得的参数、下游人员已掌握的能力，并非可供删除的离散对象。该部分价值已转换形态，任何归属规则、任何赔偿均无从回收。

其六，合规与个人信息的不确定。若涉及个人信息，"提供"将相应的合规义务与连带风险及于上游；下游的衍生数据是否已达匿名化，上游亦难以判定——多数所谓匿名实为去标识化，仍属个人信息，上游的风险敞口因此未必随数据交付而终止。

其七，相对人策略行为的不确定。数据一经交付，相对人的激励随之改变，取得占有后的拖延与再谈判随之发生；信息不对称使上游在事前难以判断相对人的意图与能力；更为不利者，相对人可能凭借源数据所形成的能力，转而与上游竞争。

综合两类：阻却上游的不确定，主要集中于第二类，而第二类为任何归属或补偿方案所不能触及；第一类中规则可以介入之处，在事前又因要件存争、且方向于上游不利。因此，无论采取何种处理方案，与上游是否对外提供直接相关的那部分不确定，均无法在事前消除。

五、经营权的收缩，及其限度

据此，经营权在现实中趋于收缩：依赖数据维系竞争的上游，倾向于不以开放、原样、自主的方式对外经营。但这一判断有三处边界，须予厘清。

其一，收缩不等于停止。上游对不确定并非无所应对，且其应对不以全知全能为前提：数据沙箱、隐私计算、数据不出域、联邦建模，以及严格的用途限制与回授审计，均是以技术与合同将不确定予以限定，以受控使用替代原样交付。上游并非不提供使用，而是不提供脱离控制的使用。

其二，变现型上游不在此列【见越自主，越难流通？数据使用权外部化的结构张力】。一次性卖断者——数据经纪、数据集买卖——衍生数据的失控为买方所承受，与卖方无涉，其已通过价款实现数据的价值。本文命题所针对的，是意在维系持续关系与控制的那一类上游。

其三，不分享本身亦有代价：数据会随时间折旧，竞争者可能先行利用。故这是一个边际的、方向性的命题——不确定抬高了上游的保留价，缩小了其愿意成交的范围，促其转向受控形态，而非一概拒绝。

也正因如此，“缺省规则不正是为降低不确定而设”这一反驳并不成立。缺省规则至多在事后分配上削减部分不确定：其内容彼此分歧，事前仍不可预测；可预测的部分又偏向下游，可预见的失控不会增强上游对外提供的意愿；而真正的阻却因素——预见、发现、相对性、融合、抽象泄漏、合规、策略——在结构上落于规则射程之外；留与上游的，终究是一项数额不定的请求权。规则所能削减者，为“事后如何分配”，而非“事前是否进行”。

结语：确立权利，不等于保障行使

数据经营权在概念上是清晰的：对外提供数据、使数据上的产权对外流转的权利。但一项权利界定得清晰，与其是否会被行使，是两个问题。授权使用会在下游形成一项上游无从及于的新客体，使上游的控制由对世效力降为对人的请求权；将这一降级置于现实条件，上游在事前还须面对一层无法消除、且大多属结构性的不确定。两种晚近的处理方案，将“事后归谁、补偿几何”做得精细，却未、亦无从触及“事前是否提供”，其偏向下游的缺省规则甚至加重了这一层。于是经营权趋于收缩：维系型上游转向受控经营，或不予经营。

这与前两篇是同一条线索。持有权单薄，其边界由行为规范供给；使用权真实却不自足，其边界由合同与技术供给；至于经营权，其是否被行使，取决于其周围的那套风险分配，而这套分配并非三权模块自身所能创设或安排。

模块所能回答的，是“此为何种权益”；它无法回答的，是“在不确定面前，这项权益是否值得行使”。框架能够确立权利的类型，却不能供给行使它的条件——这些条件，有赖于合同、技术与公法，以及此处这层无法消除的不确定；而它们的供给并不充分。

声明：本文来自网安寻路人，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

上游为何不愿对外经营数据？控制降级、衍生数据与不确定性下的经营决策

大模型时代密码学基础设施代码库安全挑战与重构

黄殿中院士：以人为本智能向善——回应人工智能时代之问

封闭计算环境的数据流通价值：从假名化与匿名化的区分来看

上游为何不愿对外经营数据？控制降级、衍生数据与不确定性下的经营决策

大模型时代密码学基础设施代码库安全挑战与重构

黄殿中院士：以人为本 智能向善——回应人工智能时代之问

封闭计算环境的数据流通价值：从假名化与匿名化的区分来看

黄殿中院士：以人为本智能向善——回应人工智能时代之问