技术赋能下电子档案数据脱敏应用研究

|

陈勇 姚燕珠

摘  要:本文对数据脱敏技术及数据脱敏模型进行了介绍与分析,针对电子档案的敏感数据特征,将K-匿名和L-多样性模型应用到电子档案敏感数据保护中,旨在提高对电子档案的敏感数据的保护能力。

关键词:电子档案;
数据安全;
数据脱敏;
数据脱敏技术

Abstract:
In this paper, the data masking technology and data masking model are introduced and analyzed, and the K-anonymity and L-diversity models are applied to the sensitive data protection of electronic archives to enhance the protection ability of sensitive data of electronic archives.

Keywords:
 Electronic archives; Data security; Data masking; Data masking technology

中办、国办印发的《“十四五”全国档案事业发展规划》中指出:“在档案安全体系建设方面,贯彻总体国家安全观,强化档案安全保护,提升档案数字资源安全管理能力,加大档案资源共享力度,大力推进‘增量电子化’,促进各类电子文件应归尽归,电子档案应收尽收。”[1]如何在数据挖掘、分析、整合、传递、共享以及使用的过程中实现对电子档案中敏感数据的有效脱敏,从而达到数据安全、可信、可控的目的,是电子档案数据管理者亟待解决的技术性问题。

本文针对电子档案数据的敏感属性防护需求,在给定的规则下对电子档案中所涉及的敏感信息进行去隐私化处理,探讨其数据脱敏模式及相关技术的应用。

1 数据脱敏

1.1 数据脱敏的内涵。数据脱敏又可称为数据去隐私化、数据变形,是指在保留数据初始特征的条件下,按需制定脱敏策略和任务,对敏感数据进行变换、修改的技术机制,可以在很大程度上解决敏感数据在非安全环境下使用的问题[2]。数据脱敏是数据治理的重要内容,是一项保障数据安全的基本技术[3]。

档案数据安全治理需要严密有效、系统完备、科学适用的各种技术工具支撑[4]。目前,已有行业技术人员以保护隐私信息为导向,研究数據脱敏技术及其应用,主要在电力数据[5]、银行数据[6]、医疗大数据[7]、高校科学数据[8]、军事大数据[9]等方面。在电子档案方面,尚未有相关的电子档案数据脱敏保护方案及应用。

1.2 数据脱敏的原则。首先是技术原则。一是有效性。有效保护敏感数据的安全性是数据脱敏的首要原则。针对不同类型的敏感信息需采用与其需求场景相适应的数据脱敏技术,在保证有效性的同时还需考虑到数据脱敏效果与所花费成本之间的平衡。二是可用性。可用性原则要求在对敏感信息进行脱敏操作的过程中需保障其在具体应用场景的数据可使用性。三是稳定性。原始数据之间存在一定的相关性,在确保各项条件相一致的情况下对原始数据进行多次脱敏处理,须保证每次数据脱敏的结果相同。

其次是管理原则。一是自动识别敏感信息。传统的脱敏规则配置方法对敏感信息进行脱敏处理效率不高,因而在处理敏感数据之前需建立起敏感信息智能分类库,再将原始数据导入库中,实现敏感信息的自动识别,进而提高数据脱敏的效率。二是安全可控。通过脱敏操作后的数据,既保持了原始数据逻辑结构也保留了原始数据的统计特征。因此,在特殊情况下仍有可能导致敏感数据被窃取。为应对敏感信息泄露,需要制定相关的应急预案,采取安全可控的管理方式提高敏感信息的安全系数。三是安全审计。将数据安全审计贯穿于数据脱敏处理的全过程,引入会话式全量数据审计,实时记录数据脱敏的各类操作行为,形成定期的统计报告,便于后续数据溯源及追踪,为数据安全事件提供翔实的追责依据。

2 电子档案数据脱敏的模式

2.1 静态数据脱敏。静态数据脱敏一般用于非生产环境,将敏感数据从生产环境抽取并脱敏后用于非生产环境[10]。静态数据脱敏操作先对目标数据识别定位,将其与预设的脱敏规则相匹配处理,并且确保脱敏结果与生产环境相隔离。其过程为:第一步,登录内部应用系统;
第二步,进入原始数据库;
第三步,静态数据脱敏引擎处理;
第四步,将脱敏后的数据输出至受保护的镜像库中;
第五步,外部系统或第三方系统提取数据。

2.2 动态数据脱敏。动态数据脱敏在不脱离生产环境的情境中对待处理的敏感数据进行脱敏操作,适用于大数据场景中处理用户访问数据时隐私数据的保护与共享的问题。相较于静态数据脱敏,动态数据脱敏围绕脱敏效果的实时性展开操作,脱敏的同时确保数据的即时可用。依据不同的数据特征,静态数据脱敏内置高效多样的脱敏算法,其使用具有相同含义的数据来替换先前的敏感数据,例如对姓名进行脱敏处理后,其仍然为有实质意义的姓名;
对家庭地址进行脱敏处理后,其仍然为家庭地址;
对身份证号码进行脱敏处理后,其仍然是18位数字且能够保证地址码、出生日期码以及校验码的可识别性。

3 电子档案数据脱敏的技术

3.1 泛化技术。泛化作为目前最常使用的数据匿名化方法中的一种,是将具有敏感属性的原始数据值替换为一个一般形式值的过程。对于数值属性AN,给定一个属性值a,如果区间[b-c]包含了a,那么称[b-c]是a一个泛化[11]。例如,将电子档案中“年龄”的原始数值20和24,使用区间[15,25]替换;
将属性为“邮编”的原始数值200386泛化为200***。图1是某电子档案中以“部门”为例的泛化树。其中原始数据为“部门”名称,一层泛化节点为“区域”名称,高级泛化根节点为“公司”名称。原始数据D1={李明,市场部};
支节点一层泛化D1={李明,华南区};
根节点最高层泛化D1={李明,Y公司}。在泛化的递进过程之中,数据主体的可识别性越来越模糊,一定程度上增强了对电子档案中敏感信息的保护。

图2是分类型属性“疾病”所生成的分化树,其取值为:脑卒中、帕金森病、支气管哮喘、肺炎、气胸、心脏病、肝囊肿、胆管结石。例如“疾病”的取值为“心脏病”,根据图2分类树初级泛化后“疾病”的取值为心胸外科疾病;
若用户认为“心脏病”为中级敏感信息,可以用“外科疾病”对外发布数据。

3.2 扰乱技术。扰乱技术是指在原始数据中添加噪声,使原始数据发生变形或由随机生成的数值所替代,干扰其直接可读性,进而达到保护敏感信息安全的目的。电子档案中包含着大量敏感属性的信息,为避免这些敏感信息的泄露,通常需要采用一定的方法使其无法在授权之外的环境下被人或机器所获取,常用的方法如表1所示。

4 电子档案数据脱敏的模型

4.1 k-匿名模型。定义1(等价类)对于数据表T{ A1,A2,…,An }(n为属性的个数),一个等价类是指在子集{A1,A2,…,Aj}(j为子集属性的个数)上取值相同的元组的集合[12]。

定义2(k匿名)给定数据表T{ A1,A2,…,An },QI是T的准标识符,T[QI]为T在QI上的投影(元组可重复),当且仅当在T[QI]中出现的每组值至少要在T[QI]中出现k次,则T满足k匿名,记为T’[13]。

隐私和数据保护专业人员通常会以数据表的形式将电子档案中尚未公开的数据对外发布。数据表中的每一组完整信息记录着对应的个体特征。电子档案数据表的属性可以分为4类[14]:1)标识符属性(I),指的是能够直接确定个人属性的唯一识别码,主要包括个人姓名、身份证号码、护照证件号码等;
2)准标识符属性(QI),是指与个体属性具有紧密的关联关系的数据,与其他准标识符相组合可确定目标对象的属性,该过程也可称之为“重新标识”,如出生日期、联系方式、户籍地等;
3)敏感属性(S),是指电子档案中所涉及的个人隐私属性,如收入、病史、信仰等;
4)非敏感属性(N),是指除上述三类属性之外的其他属性。

表2为某电子档案的原始数据。其中,“姓名”为标识符,可以此直接定位个体;
“性别”“工号”“年龄”均为准标识符,可通过这4个属性来确定一个个体;
“专业技术岗位等级”为敏感属性。通常情况下,在对电子档案中的原始数据表进行 k-匿名模型处理时删去其标识符,保留非敏感数值。

表3是对表2进行k-匿名模型处理得到的匿名表,此时k=2。表3含有三个等价组,每一个等价组中都对应着2条及以上的数据记录。将表2中的标识符属性“姓名”予以剔除,以避免攻击者能够直接定位识别个体身份;
将准标识符属性等价组{性别,工号,年龄}的取值进行泛化处理,并且保留敏感属性组“专业技术岗位等级”的原始值。

原始数据表通过k-匿名处理之后,能够有效降低精准识别某条记录的概率,进而达到保护数据隐私的目的。k-匿名模型脱敏后的数据表令窃取者通过读取准标识符之间的关联性从而定位出目标对象的概率仅为1/k。k-匿名模型能够保护目标对象的身份安全,但在一定程度上未能抵御属性泄露的风险[15]。如表3中的个体3和个体4同属于第2个等价组之中,且个体3和个体4的敏感值都是初级,假定窃取者已知李淑珍的性别、工号和年龄信息,那么窃取者可基于已知信息推测出李淑珍落于匿名表中的第2个等价组内,从而可以确定其专业技术岗位等级为初级。因此,仅仅使用k-匿名模型对电子档案中的敏感信息进行脱敏操作,并不能够完全保护隐私数据的安全。

4.2 l-多样性模型。k-匿名模型脱敏效果的进一步发展。定义3(l-多样性)给定数据集D和等价组M,若D中的任意M的不同敏感属性值的个数至少为l,则称D满足l-多样性[16]。当某个数据表中的等价组都至少符合l-多样性模型,则该发布的数据表符合l-多样性。

表4是某电子档案中的原始数据表,表5是对其进行l-多样性模型脱敏处理后得到的数据表。

表5满足l-多样性的性质,此时可知k=4,存在3个等价组,即每个等价组中最少含有4条不同的敏感属性值。经过l-多样性模型操作得到的表5,l=4,既满足了数据多样性的要求,又降低了精准判断出电子档案中敏感属性信息的概率至“1/l”,在一定程度上增强了敏感信息真值的安全性。

经过I-多样性模型操作得到的表5,相较于k-匿名模型的安全性更强。假设小明欲知目标对象所患疾病且掌握了目标对象个人背景信息,通过目标对象的年龄和学历确定了目标对象所落在的等价组。此时,小明仅可定位到目标对象的组别,无法直接推断出目标对象所患的疾病。因此,将l-多样性模型应用到保护电子档案敏感数据中,能够增强敏感数据的安全性,有效降低敏感数据泄露的风险。

5 結语

切实保障电子档案数据安全,充分释放档案数据活力成为热点议题,这也对电子档案数据脱敏提出了更高的要求。将数据脱敏技术引入到电子档案数据安全适用之中,助力构建档案信息资源新生态,为未来档案工作“赋能知识社会”的总目标提供了新的思考方向。

*基金项目:国家社会科学基金项目“信息网络技术驱动档案移动服务创新路径研究”(项目批准号20BTQ103)阶段性研究成果。

参考文献:

[1]国家档案局.中办国办印发《“十四五”全国档案事业发展规划》[EB/OL}.[2021-06-08].https://www.saac.gov.cn/daj/toutiao/202106/ecca2de5bce44a0eb55c890762868683.shtml.

[2]陈天莹,陈剑锋.大数据环境下的智能数据脱敏系统[J].通信技术,2016,49(07):915-922.

[3]袁绍晚.开放共享环境下城建档案数据脱敏系统研究与设计[J].档案与建设,2021(06):52-54+63.

[4]金波,杨鹏.大数据时代档案数据安全治理能力成熟度模型构建[J].档案学通讯,2022(01):29-36.DOI:10.16113/j.cnki.daxtx.2022.01.004.

[5]冉冉,李峰,王欣柳,杨立春,丁红发.一种面向隐私保护的电力大数据脱敏方案及应用研究[J].网络空间安全,2018,9(01):105-113.

[6]郑琳.大数据背景下个人数据银行发展现状分析及启示[J].图书馆学研究,2020(05):2-9.

[7]吴文昊,李占强,席现国,胥婷.数据安全闭环管理在国家健康医疗大数据中心(北方)的实践[J].中国数字医学,2021,16(07):13-17.

[8]刘桂锋,阮冰颖,包翔.数据生命周期视角下高校科学数据安全内容框架构建[J].情报杂志,2021,40(02):146-153.

[9]周聪.军事大数据平台的安全机制研究[J].数字通信世界,2021(06):41+45.

[10]苗功勋,蔡力兵,周春龙.基于智能化分析的非结构化数据脱敏技术研究[J].保密科学技术,2021(09):23-31.

[11]杨挺,薛质,施勇.基于K-匿名的隐私保护关键技术研究[J].信息技术,2016(12):6-9+13.

[12]TONG Yunhai,TAO Youdong,TANG Shiwei,et al.Identity-reserved Anonymity in Privacy Preserving Data Publishing[J].Journal of Software,2010,21( 4 ) :771-781.

[13]夏赞珠,韩建民,于娟,郭腾芳.用于实现(k,e)-匿名模型的MDAV算法[J].计算机工程,2010,36(15):159-161.

[14]SWEENWYL.k-anonymity:a model for protecting privacy[j].International Journal of Uncertainty Fuzziness and Knowledge Based Systems,2002,10(05):557-570.

[15]PRASSER F,BILD R,EICHER J,et al.Lightning:Utility-Driven Anonymization of High-Dimensional Data[J].Transactions on Data Privacy,2016,9(02):161-185.

[16]劉振鹏,孙静薇,王烁,王文胜,尹文召,张彬.PDMP:ε_k个性化数据脱敏保护方法[J].计算机应用研究,2020,37(10):3068-3070+3082.

(作者单位:广西民族大学管理学院,广西数字档案管理研究所 来稿日期:2022-08-20)

猜你喜欢电子档案数据安全云计算中基于用户隐私的数据安全保护方法电子制作(2019年14期)2019-08-20建立激励相容机制保护数据安全当代贵州(2018年21期)2018-08-29大数据云计算环境下的数据安全电子制作(2017年20期)2017-04-26学生电子档案在班级管理中的应用探究中国教育技术装备(2016年19期)2016-12-27办公自动化环境的文书档案管理要点科学与财富(2016年29期)2016-12-27电子档案管理存在的问题及对策经济师(2016年10期)2016-12-03新时期电子档案在档案管理中的应用办公室业务(2016年9期)2016-11-23医院人事档案电子化管理浅析科技视界(2016年20期)2016-09-29云环境中数据安全去重研究进展通信学报(2016年11期)2016-08-16大数据安全搜索与共享信息安全研究(2015年3期)2015-02-28

推荐访问:档案 数据 研究