绿色隐私计算背后的“化学反应”

智道栏目主持人：於兴中

未来，碳核算、碳中和、隐私指标和隐私计算不再是神秘莫测的技术咒语，而是可以在法律、伦理和技术间自如搭建的积木模块

(相关资料图)

绿色数据处理和绿色人工智能是法律、伦理和技术交叉的前沿方向。隐私计算亦然。前沿方向间的再交叉，还会结出意想不到的硕果。2023年，大型互联网平台开始推进绿色隐私计算。质言之，绿色隐私计算的提出与推进，意味着法律和伦理更加深刻地嵌入技术的研发和使用当中，甚至内化为技术社区的一种新语言。

绿色数据处理

绿色数据处理充分地识别和补救了其对生态环境的负面影响。也就是说，充分地衡量和补救了能源消耗、碳排放、废热排放和废弃物排放等负面影响。

绿色数据处理既有一般性的要求，也有需要结合具体特性实现的要求。以绿色人工智能为例，既有处理记录、日志留存等一般性的要求，也高度依赖于人工智能压缩、加速和端侧部署等技术的发展。

绿色数据处理需要补救处理活动对生态环境造成的各类负面影响，特别是能源消耗和碳排放。为此，需要满足三个层面的一般性要求。首先是完整记录究竟发生了哪些处理活动。

如果连发生了什么数据处理都不清楚，后续计算能耗和碳排放也就无从谈起。其次，对于各项处理活动，留存对计算其能耗和碳排放有用的处理日志。这是后续计算的原始记录。最后，在计算各项活动的能耗和碳排放的基础上，有针对性地设计、实施并审计节能减排措施。

绿色人工智能可以视为绿色数据处理的特例。为了补救人工智能造成的能源消耗和碳排放，既要遵从一般性要求，也要根据人工智能的技术特性设计节能减排措施。欧盟《人工智能法案》第12条2a款和第28条第4款b项分别规定了详尽的能耗记录和模型设计义务，这些正是绿色原则的体现。结合人工智能的技术特性，节能减排措施需要压缩技术组件规模、提高技术运行效率。数据压缩、模型压缩、模型加速和端侧部署都是体现人工智能特性的节能减排措施。

无论是一般性的数据处理要求，还是结合技术特性的节能减排措施，都是绿色原则逐步内化为技术社区语言的体现。每实施一项数据处理活动，都从绿色的角度加以记录；每回顾一项数据处理活动，都从绿色的角度反思是否可以改进。法律和伦理所要求的“绿色”，前所未有地深刻嵌入技术。

隐私计算

隐私计算同样尝试充分识别和补救数据处理对隐私权和个人信息权益的负面影响。具体而言，关联概率、k-匿名、差分隐私等隐私指标严格定义和衡量了个人信息的识别风险。合成数据、联合学习、同态加密等隐私计算技术沿着不同技术路线，以不同补救方式降低了识别风险。

隐私指标从个人对隐私和个人信息的直观出发，严格定义、衡量了个人信息的识别风险。关联概率是在数学层面严格定义的、将同属一人的不同信息成功匹配的概率。成功匹配的概率越低，再识别也就越难。

k-匿名和包含同样的识别符信息的数据量有关。如果有很多条数据的识别符信息完全一致，这些数据所对应的个体就很难再区分出来，也就很难实现再识别。

差分隐私意味着不同的个人信息输入对输出影响微乎其微。换言之，很难从输出中识别具体的个人信息是否作为输入。

三种指标既以互补的方式定义识别风险，又共同构成相当严密的衡量体系。隐私由此可以定量管理。

隐私计算主要有三种技术路线。技术路线不同，补救风险的效果也不同。

第一条路线是对数据本身进行扰动或者合成。只是在数据上增加少数噪声或者做程度较轻的变换，谓之扰动；根据数据的统计特征再造一套新的数据，谓之合成。无论扰动还是合成，都是为了优化隐私指标、降低识别风险。

第二条路线是在联合进行的计算任务中降低共享信息的识别风险。联合学习是典型的例子。在联合训练模型时只交换中间产物而不交换原始数据，可以降低共享数据所蕴含的识别风险。

第三条路线是在需要联合进行的计算任务中对数据进行加密。这一般不影响隐私指标或者安全风险，只是增加处理活动安全性的技术措施。

无论是基于隐私指标定义和衡量识别风险，还是通过隐私计算针对性补救风险，都是隐私保护逐步内化为技术社区语言的体现。每实施一项处理活动，都对识别风险予以衡量；每实施一项处理活动，都考虑是否可以技术方式加以补救。由此可见，法律和伦理要求的隐私和个人信息保护，亦前所未有地深刻嵌入技术。

绿色隐私计算

绿色数据处理和隐私计算都是相当前沿的方向。两个前沿方向间的再次交叉，催生了更为前沿的绿色隐私计算方向。绿色联合学习是这一方向上的代表工作。尽管这一交叉发生在2023年，但其也可视为两大长期延续的趋势的合流与奔涌。如今，绿色数据处理和隐私计算不仅内化为技术社区的语言，还通过“化学反应”催生出新的可能性。法律、伦理和技术的汇合与交融，日益浑然天成。

绿色联合学习由美国互联网巨头Meta在今年3月提出，大致包含三部分。

首先是联合学习能耗和碳排放的衡量。联合学习限制了信息的共享，数据主要在个人设备上处理。个人设备通常不具备企业数据中心的先进设备和能力，需要设计新的方法来衡量此时的能耗和碳排。

其次是具体的衡量结果。简言之，生产中应用联合学习可能造成大量能耗与碳排，“绿色”和隐私保护间存在潜在的冲突。

最后是设计调和二者的技术路线，特别是需要仔细磨勘架构设计、参数选择和同步优化。

绿色联合学习的提出，预示着“绿色”和隐私保护在更高的水平上嵌入至技术、内化为语言。未来，碳核算、碳中和、隐私指标和隐私计算不再是神秘莫测的技术咒语，而是可以在法律、伦理和技术间自如搭建的积木模块。法律和伦理得以精细地微调技术，技术也能足够灵活地吸纳法律和伦理的要求。再进一步，不仅是法律和伦理在滞后的地位追赶技术，也不再是脱缰的技术勉强地和法律与伦理对齐，而是通过对三者的交融运用，创造出新的交叉的可能性。

（作者系北京科技创新中心研究基地研究员）

标签：