首页

以案说法

数据脱敏技术指南：保护敏感隐私数据，助力数据安全建设

时间：2024-10-16 00:05 作者：佚名【转载】

东莞长安律师获悉

概括

数据脱敏是数据安全领域较为成熟的技术手段。在数据深度广泛共享开放的今天，数据脱敏可以在不影响数据使用的情况下保护敏感隐私数据，已成为数据安全建设的重要组成部分。重要内容。本文通过梳理数据脱敏技术及应用场景，为各行业用户更好地实施数据脱敏技术提供指导。主要内容包括以下四个方面：

数据脱敏法律政策合规基础

《网络安全法》第四十二条：网络运营者不得泄露、篡改、毁损其收集的个人信息；未经被收集人同意，不得向他人提供个人信息。但处理后无法识别特定个人且无法恢复的情况不在此限。

《数据安全法》第二十七条：开展数据处理活动应当依照法律、法规的规定，建立健全全流程的数据安全管理制度，采取相应的技术措施和其他必要措施，确保数据安全。数据安全。

《个人信息保护法》第五十一条：个人信息处理者应当采取相应的加密、去标识化等安全技术措施。

《信息安全技术网络安全等级保护基本要求》明确规定，二级及以上保护需要对敏感数据进行脱敏。其中，H.4.3安全计算环境要求“大数据平台应提供静态脱敏、去识别工具或服务组件技术”。 H.4.5安全运维管理“应在数据分类分级的基础上划分重要数字资产的范围，识别重要数据并自动对使用场景和业务处理流程进行脱敏或去标识化。”

《网络数据安全管理规定（征求意见稿）》第十二条：数据处理者向第三方提供个人信息，或者共享、交易、委托处理重要数据的，应当告知个人其目的提供个人信息的、类型和目的。方式、范围、保存期限、保存地点，并取得个人同意，但法律、行政法规不需要取得个人同意或者已经匿名的情况除外。

典型行业：金融行业合规要求《中国银行业“十二五”信息技术发展细则监管指导意见》：加强数据和文件的安全管理，逐步建立信息资产分类分级保护机制。完善敏感信息存储、传输等高风险环节的管控措施，建立严格的数据和文件访问审批机制。用于测试的生产数据必须进行脱敏处理，严格防止敏感数据泄露。《金融行业网络安全等级保护实施指南》：开发环境、测试环境和实际运行环境应相互分离。敏感数据必须脱敏后才能用于开发或测试。《金融数据安全数据生命周期安全规范》：开发和测试过程中使用的数据应提前脱敏，防止数据处理过程中的数据泄露，国家和行业主管部门另有规定的除外。

《商业银行信息科技风险现场检查指引》：开发过程中是否使用生产数据，使用的生产数据是否经过高级管理层批准并进行脱敏或相关限制。 “测试用例是否有生产数据，使用生产数据进行测试时是否经过高层批准，是否采取了相关限制和脱敏措施。”

典型行业：电信、互联网行业合规要求。《电信和互联网行业数据安全标准体系建设指南》：数据处理数据处理标准用于规范敏感数据和个人信息的保护机制和相关技术要求，明确敏感数据保护的场景。、规则和技术方法，主要包括匿名/去识别、数据脱敏、异常行为识别等标准。《提升电信和互联网行业网络数据安全保护能力专项行动计划》：指导电信和重点互联网企业加强内部网络数据安全组织保障，推动设立或明确网络数据安全管理责任部门和专职人员，负责企业内部网络数据。安全管理工作，监督协调企业内部各相关实体和环节严格落实操作权限管理、日志记录和安全审计、数据加密、数据脱敏、访问控制、数据容灾备份等数据安全保护措施，组织开展数据安全岗位人员法律法规、知识技能培训。《电信网络和互联网数据脱敏技术要求及测试方法》：提出了数据脱敏技术的应用架构，总结了数据脱敏技术实际应用中涉及到的三个主要要素：脱敏算法、脱敏规则、脱敏策略。此外，标准还提出了数据脱敏后的效果评估策略。

《电信网络和互联网数据安全评估规范》：检查企业的数据脱敏管理规范和制度文件，是否明确数据脱敏的应用场景，数据脱敏规则、脱敏方法、数据脱敏处理流程、涉及的分工等部门、人员职责等。检查企业数据脱敏管理标准和制度。在企业业务和业务支撑系统的数据权限和资源申请阶段，数据的数据安全管理负责人是否评估使用真实数据的必要性并确定是否适合场景。数据脱敏规则和方法。检查数据脱敏处理的管理规范和制度，是否建立数据脱敏处理技术应用的安全评估机制，对脱敏后数据的可恢复性进行安全评估，脱敏方法（含算法）是否可以恢复原始数据。执行安全增强。展示企业业务测试系统数据库以及企业是否使用脱敏数据进行业务系统的开发和测试。检查示范企业数据脱敏工具是否能够记录数据脱敏过程的相应操作，并为数据脱敏处理提供安全审计能力。

数据脱敏技术定义及实现流程分析数据脱敏的定义

数据脱敏是指通过脱敏规则对某些敏感信息进行变形，实现敏感隐私数据的可靠保护。当涉及客户安全数据或一些商业敏感数据时，必须在不违反系统规则的情况下将真实数据进行转换并用于测试。手机号、卡号、客户号等个人信息都需要脱敏。。

数据脱敏的发展历史

手动脱敏阶段：多为SQL脚本方式，在ETL处理时进行脱敏。该方法工作量大，数据处理效率低。同时数据质量较差，无法保证数据结构的完整性和数据之间的相关性。。平台脱敏阶段：集成敏感数据自动发现、系统化流程脱敏、丰富数据源支持、充足的脱敏算法库、丰富的敏感类型等功能，在提高效率的同时降低人力成本，保证数据脱敏的基础。需求。自动脱敏阶段：通过应用机器学习等技术，结合各种数据分类和分类规则以及实际使用的数据脱敏策略和规则，可以实现自动实时敏感数据发现、自动脱敏规则匹配等智能数据脱敏。结果。同时具备分布式等多种部署支持、智能性能分析、自动化调优等能力。

数据脱敏关键技术能力高仿真能力：

保持数据原有的业务特征

保持数据相关性

保持数据之间的逻辑一致性

业务依赖数据对象同步

丰富的数据源支持

关系数据库支持

大数据平台支持

特殊文件类型支持

消息队列支持

内置丰富的脱敏规则

支持多种数据脱敏算法

支持组合脱敏和自定义分组规则

处理细粒度数据的能力

加工效率高

最大化单个设备的性能

具有增量脱敏能力

支持分布式部署

数据脱敏分类

类型

常见场景

具体例子

静态数据脱敏

通常用于非实时场景。

使数据从生产环境到测试环境脱敏。

动态数据脱敏

常用于生产环境等实时场景，使应用程序或平台用户在访问敏感数据时脱敏。用于解决根据不同情况读取统一敏感数据时需要不同级别、不同类型脱敏的场景。

适用于生产数据共享或者对时间高度敏感的数据访问场景等，实现生产数据库中敏感数据的透明实时脱敏。

如上图所示：动态脱敏会对数据进行多次脱敏，更多用于生产数据直连的场景。当用户在生产环境中访问敏感数据时，通过匹配用户IP或MAC地址等脱敏条件，根据用户权限使用重写查询SQL语句等方法返回脱敏数据。例如运维人员在运维工作时直接连接生产数据库，业务人员需要通过生产环境查询客户信息等。

脱敏算法推荐形式

算法

描述

适用的数据类型

推荐的脱敏形式

重新排列

跨银行随机交换原始敏感数据，打破原始敏感数据与银行其他数据的关联性。

普遍的

动态脱敏、静态脱敏

关系映射

原始敏感数据之间存在业务关系，数据脱敏后需要维护这种关系。因此，在脱敏过程中，通过算法表达式对脱敏后的数据进行函数映射，使得脱敏后业务关联关系仍然能够保持。

普遍的

动态脱敏、静态脱敏

偏移舍入

偏移量舍入是按照一定的粒度进行的。

日期、时间、数字

动态脱敏、静态脱敏

散列

通过哈希算法计算原始数据，并使用计算出的哈希代替原始数据。

普遍的

动态脱敏、静态脱敏

加密

使用加密密钥和算法对原始数据进行加密，将敏感数据变成不可读的密文。

普遍的

静态脱敏

格式保留算法 (FPE)

采用特殊的加密脱敏算法对敏感数据进行加密脱敏，密文保持与原始数据相同的格式。

普遍的

静态脱敏

不断替代

用恒定的假数据替换原始数据（假数据的生成与原始数据值无关）。

普遍的

动态脱敏、静态脱敏

随机更换

保持数据格式，根据特定原始数据的编码规则重新生成新的数据。

普遍的

动态脱敏、静态脱敏

截短

截断内容

普遍的

动态脱敏、静态脱敏

标签

根据预先确定的类别进行分类，原来的敏感数据将被类别标签替代。

普遍的

动态脱敏、静态脱敏

概括

用更通用的值替换原始数据，降低敏感数据的准确性，从而无法识别个人。

普遍的

动态脱敏、静态脱敏

匿名的

通过对数据内容的处理，保证数据表发布时，数据中会有一定数量的基于准标识符无法区分的记录。

普遍的

静态脱敏

差异化隐私

在原始数据中添加噪声信息，使得满足差分隐私的数据集能够抵抗对私有数据的任何分析。

数据集

数据脱敏

漂浮

通过浮动脱敏算法，可升降5%。

数据集

静态脱敏

归零

通过归零算法对原始数据381.38进行脱敏处理。

数据集

静态脱敏

均质化

通过均质化算法进行脱敏。

数据集

静态脱敏

分组

将数据根据尺度分为高、中、低三个级别，并分别进行脱敏。

数据集

静态脱敏

面具

将部分原始数据统一替换为通用字符，仅保留部分敏感数据。

细绳

动态脱敏、静态脱敏

数据脱敏的常用算法及示例

算法名称

算法说明

例子

使用场景（仅供参考）

固定映射

通过设置映射种子，当映射种子不变时，相同的原始数据脱敏后结果相同，保留原有的业务特征。

映射种子：111

原始资料：张三

脱敏结果：李四

第二次脱敏结果：李四

中文姓名、电话号码、银行卡、电子邮件地址、地址、IP地址

日期、通用字符串、键、货币金额

医疗机构注册号、医师资格证书、医师执业证书

营业执照、统一社会信用代码、组织机构代码、税务登记证、开户许可证

护照、军官证、中国护照、港澳通行证、永久居留证、台湾同胞来往大陆通行证

证券名称、证券代码、基金名称、基金代码

随机映射

随机化值、字符或字符串并保留原??始业务特征

原始数据：

脱敏结果：

中文姓名、电话号码、银行卡、电子邮件地址、地址、邮政编码、IP地址

CCV代码

货币金额、通用字符串、字符串

医疗机构注册号、医师资格证书、医师执业证书

营业执照、统一社会信用代码、税务登记证、开户许可证、组织机构代码、组织名称

护照、军官证、中国护照、港澳通行证、永久居留证、台湾同胞来往大陆通行证

证券名称、证券代码、基金名称、基金代码

覆盖

通过设置屏蔽字符，可以屏蔽掉全部或部分原始数据。

面具： *

原始数据：

脱敏结果：135****5678

中文姓名、电话号码、银行卡、电子邮件地址、地址、CCV代码、IP地址

组织机构代码、组织名称、营业执照、统一社会信用代码

医疗机构注册号、医师资格证书、医师执业证书

护照、税务登记证、开户证、军官证、中国护照、港澳通行证、永久居留证、台胞大陆通行证

证券名称、证券代码、基金名称、基金代码

范围内随机

（广义脱敏）

在指定范围内随机化日期或金额，保留原有业务特征

范围 1000 至 9999

原始数据：38472.00

脱敏结果：8394.00

日期

金额

常用数值

保持随机

所选片段将被保留，而其他片段将被随机化。

原始数据：2020年10月10日

脱敏算法：[1900-2018]年，[01-12]月，[01-30]日

日期

漂浮

将日期或金额增加或减少固定值或百分比，同时保留原始业务特征

上涨或下跌 5%

原始数据：1000.00

脱敏结果：1049.00

日期

归零

对于数值，清除并设置为 0.00

原始数据：381.38

脱敏结果：0.00

常用数值

截距

根据起始位置截取字符串

起始位置：2，结束位置6

原始数据：

脱敏结果：bcdef

通用字符串

截短

保留字符串中除起始位置以外的内容

起始位置：2，结束位置6

原始数据：

脱敏结果：

通用字符串

数字截断

将数字截断为仅指定的位数

例如，保留“3位”，则值为678。

常用数值

加密

通过不同的加密算法进行加密，脱敏后显示的数据为密文数据

SHA1加密、MD5加密、加密、AES对称加密、RSA非对称加密、SMS4加密等

中文姓名、电话号码、银行卡、电子邮件地址、地址、IP地址

邮政编码（SHA1加密、MD5加密）

营业执照、统一社会信用代码、组织机构代码、税务登记证、开户许可证

医疗机构注册号、医师资格证书、医师执业证书

护照、税务登记证、开户证、军官证、中国护照、港澳通行证、永久居留证、台胞大陆通行证

证券名称、证券代码、基金名称、基金代码

代替

用常量替换数据，通常在不需要更改敏感字段时使用

原值：566

原值：789

脱敏后：

566-0

789-0

通用字符串

匹配替换

通过EXCL表导入替换规则，完成匹配替换

1111 替换为 2222

3333 替换为 4444

通用字符串

水印

通过数字水印的水印标签

伪行、伪列或不可见字符

日期

抵消

将小数点向左或向右移动

如果设置为[2]，脱敏结果可能是[28.00]

金额

常用数值

圆形的

四舍五入数字

如果整数是2，那么脱敏后1988.65就是1900

例如，整数“3位”是

金额

常用数值

分割

主要是对数字进行脱敏，可以将相同范围内的值脱敏为相同的值

例如取值范围为1~99，则统一脱敏不为1

数值从100到199，统一脱敏为2

数值从200到299，统一脱敏为3

金额

其他脱敏算法

算法名称

算法说明

例子

使用场景（仅供参考）

平均脱敏

我们首先计算它们的均值，然后将脱敏值随机分布在均值周围，从而保持数据之和不变。

例如，该科目总分是500分

脱敏后，科学总分仍为500分。

金额

哈希值

将数据映射为哈希值

吉姆·格林纳

34453

用于将可变长度的数据映射为固定长度的哈希值。

数据脱敏策略

在具体场景设定数据脱敏策略时，应充分考虑数据脱敏后数据本身的可用性和数据的保密性，寻求两者之间的平衡。数据脱敏策略的选择如下所示。数据脱敏的目标包括：

数据脱敏实施流程

敏感数据识别：即生产系统中敏感数据的识别，主要包括：

存储位置：明确敏感数据所在的库、表、字段（列）；

数据分类分级：明确敏感数据的类别和敏感级别。

策略选择和算法配置，包括数据脱敏后保持原有特征的分析、数据脱敏算法的选择以及数据脱敏算法的参数配置：

保持原始数据的格式和类型；

维护原始数据之间的依赖关系；

保持引用完整性、统计属性、频率分布、唯一性和稳定性。配置需要脱敏的目标（数据库名/表名/字段名）和合适的脱敏算法参数，并根据业务需求完成其他算法的参数配置。

数据脱敏任务执行阶段根据不同需求进行选择，分为动态脱敏处理步骤和静态脱敏处理步骤：

1. 动态脱敏处理步骤 2. 静态脱敏处理步骤数据脱敏典型应用场景开发测试场景

在开发和测试场景中，银行、证券等金融行业的业务系统中存在姓名、身份、账号等敏感信息。开发和测试需要使用模拟数据，因此需要采用脱敏的方法来保证敏感数据不被泄露。

场景特点

数据库类型较多，系统架构复杂，跨系统、跨平台测试数据获取困难。

开发和测试场景需要高度模拟生产环境，对脱敏数据与业务的一致性有严格要求。

生产环境与开发测试环境相互隔离，互不访问。

一些行业，如银行、金融机构，每天新增大量数据，无法定期对全量数据进行脱敏，要求数据脱敏系统具备增量脱敏能力。

需要多种脱敏算法。例如，在金融机构的脱敏场景中，需要维护脱敏后不同字段之间的数据计算关系，例如“2+3=5”。脱敏后，等号左边的值需要保持等于右边的值。

关键能力

支持主流关系数据库、大数据平台、格式化文本文件、转储文件

支持通过ftp文件服务器连接传输和导入隔离的开发和测试环境

支持dmp文件直接解析脱敏。

数据脱敏根据实际业务需求提供脱敏数据，可以通过数据子集、黑名单、白名单等控制数据脱敏的范围。

支持生产数据全量脱敏和增量脱敏，可设置脱敏作业的调度周期，监控作业进程，支持脱敏前后数据在线对比功能。

提供多种数据脱敏算法。

教学培训场景

教学训练场景是为了科学研究而对数据进行统计分析。在这种场景下，既要保证数据的特征，又要保证脱敏后科学研究所必需的内容。

场景特点

为了保证获得的数据能够满足科学研究，保留数据的真实有效性。

脱敏后的数据需要具有教学和培训价值，并且不能丢失数据的业务特征。

脱敏后的数据需要保持其完整性，保证其长度不变、数据内涵不丢失。

关键能力

内置丰富的数据脱敏算法和数据分段脱敏能力，可以适应不同的数据分析场景，从而在保证数据脱敏或脱敏的同时安全地进行各种数据分析。

保证主外键一致、业务关联一致、依赖字段敏感信息一致脱敏、多次脱敏结果一致等，保证脱敏前后整体一致性，维护数据之间的逻辑关系。

维护数据字段和数据对象从源到目标的完整迁移

分析挖矿场景

数据分析的有效性往往取决于基础数据的质量，基础数据的可用性直接影响分析结果和企业决策。在大数据分析应用领域，企业需要在保证数据安全合规的同时，仍保持数据可用性，挖掘分析价值。

场景特点

数据脱敏时，应保持与原始数据的高度模拟，不破坏数据之间的相关性，保证数据分析结果仍然具有指导意义。

大数据分析平台包含大量用户隐私和敏感数据。针对大数据环境进行数据脱敏。数据结构复杂，包括结构化和非结构化数据等，脱敏操作复杂。

在特定场景下，需要对脱敏数据进行重新敏化。例如，银行通过分析脱敏的转账记录、贷款记录、还款记录等来评估个人信用评级，最后将结果追溯到真实的银行客户。

关键能力

保证主外键一致、业务关联一致、依赖字段敏感信息一致脱敏、多次脱敏结果一致等，保证脱敏前后整体一致性，维护数据之间的逻辑关系。

支持HDFS、Hive、ODPS等大数据敏感源。

支持数据脱敏和重敏。只有具有重敏权限的用户才能执行此操作，充分保证安全。

数据上报场景

数据上报场景很可能涉及隐私敏感数据信息，敏感隐私数据在上报过程中需要进行匿名处理。

场景特点

数据脱敏可以有效防止敏感数据泄露，但医疗、金融、政府等监管机构较强的行业，需要数据流场景进行数据上报。

数据上报过程中的脱敏数据必须与原始数据保持高度的模拟，不破坏数据之间的相关性，并保证上报的内容仍然具有其业务特征。

某些行业的数据报告需要对脱敏数据进行重新敏化。比如政务行业、金融行业就有较强的监管需求。

关键能力

保证主外键一致、业务关联一致、依赖字段敏感信息一致脱敏、多次脱敏结果一致等，保证脱敏前后整体一致性，维护数据之间的逻辑关系。

内置数据水印和溯源功能，用户可以自定义水印内容，同时算法保证水印内容的防破坏，从而保证数据分享给第三方后，来源并可通过系统追究责任。

支持数据脱敏和重敏。只有具有重敏权限的用户才能执行此操作，充分保证安全。

股权交换场景

现代企业对外合作越来越多，数据交换也越来越频繁。他们需要合理控制数据流出。当敏感数据发送到低安全区域时，应对数据进行脱敏改造，避免隐私数据泄露。

场景特点

在数据共享场景中，某些敏感数据字段在特定需求下需要保留，但其他私有数据可以进行屏蔽、模拟等。

作为数据提供者，有必要提供追溯机制。当发生数据泄露时，可以识别泄露数据的一方，以便于追溯和问责。

关键能力

预设了丰富的敏感对象，包括个人隐私、财务、商业秘密、医疗数据、相关文档等。在进行数据脱敏时，所设置的敏感对象会按照规则进行脱敏，可以根据实际需要进行脱敏。定制敏感对象，完善敏感对象库。

对于脱敏源中存在的脏数据（不符合敏感对象的业务特征的数据），系统还将变形该部分数据，以避免泄漏无形的敏感数据。

借助内置数据水印和可追溯性功能，用户可以自定义水印含量，同时，算法确保了水印含量的抗抑制作用，从而确保与数据与第三方共享后，来源（来源）可以通过系统追踪问责制。

业务查询方案

当业务系统为外界提供服务时，他们通常会面临客户群体可以通过其帐户访问真实数据的情况。一旦帐户被伪造并登录，将显示实际信息，并且关键信息不会脱敏，这将增加数据泄漏的现象。

场景特征

业务访问的隐私处理。在典型的医疗和金融服务等典型行业中，访问业务系统通常需要直接显示信息的隐私。

为了防止批量DE-泄漏，黑客将通过在访问前端应用程序的过程中植入漏洞来窃取数据。因此，必须在访问过程中及时将敏感数据脱敏，以减少批处理数据泄漏问题。

关键功能

可以实现数据的动态脱敏，而无需修改应用程序系统，修改数据库或存储数据。

准确地确定业务系统三层的用户身份，并为不同的身份采用不同的动态脱敏策略。对于具有不同权限的用户，可以分别返回实际数据，部分掩盖，完整掩蔽和其他脱敏结果。

支持的灵活脱敏策略配置。

操作和维护管理方案

在操作和维护管理方案中，有必要对操作和维护人员的操作和管理进行全面的审计和访问控制，以便在维护过程中安全地呈现数据。

场景特征

操作和维护人员具有高特权帐户。如果不受控制，他们可以随意访问数据，成为批处理数据泄漏的主要来源之一。

根据职责分离的原则，该实施使操作和维护人员可以访问业务生产数据库，而无需他们查看核心敏感数据。为了保护隐私，还需要预防（事先）技术功能。

关键功能

访问控制：支持多维身份管理；支持签名登录验证，用于操作和维护工具或客户端应用程序，以防止恶意和伪造工具/程序登录数据库；支持安全管理员，系统管理员和安全审计师之间的权力分离。

访问控制：支持禁止特权用户，例如DBA，用户，任何等。访问和操作敏感的数据收集。支持控制查询结果中返回的行数，以避免大量数据泄漏；支持访问频率控制，以避免在一定时期内进行高频访问，并避免数据丢失；支持敏感的SQL管理。

全面的操作和维护审核，记录包括用户名，IP地址，MAC地址，客户端程序名称，执行时间的执行时间，执行的SQL语句，操作对象等，并对其行为进行全面的细粒度审核分析。

建立数据脱敏管理系统。建立组织结构并划分参与者的责任。建立一个满足业务需求的数据脱敏技术过程。开发有效的数据脱敏评估方法。

长安镇律师?敬请于评论区发表高见，并对本文予以点赞及转发，以助广大读者把握法律与正义的界限。

技术支持：建站ABC | 管理登录