当前位置:首页 > 新闻资讯 > IT业界 > 新闻
数据安全治理方案
  • 2023/12/12 10:28:39
  • 类型:转载
  • 来源:
  • 网站编辑:阿卡
【电脑报在线】数据安全治理工作将以“数据资产化”为中心,聚焦于数据资源转化为数据资产、数据资产开发利用、数据驱动业务发展三条主线。

作者:盐城市大数据集团  王牧 蒋立刚


数据安全治理工作将以“数据资产化”为中心,聚焦于数据资源转化为数据资产、数据资产开发利用、数据驱动业务发展三条主线。同时强调数据治理要服务于业务,应用于业务;要抓牢“数据产在本地,存在本地,用在本地”的定位,既要立足长远、夯实基础,又要长短结合、持续迭代。


一、思路与目标

整体思路为“田”字型架构,三横从下往上分别为数据资源、数据治理、数据资产,三竖从左往右分别为制度保障、组织保障、安全保障。

建设思路为“1234”,即1个宗旨:保障数据质量与安全,降低数据使用成本,提升数据价值,2个范围:关注公共数据和企业数据,3个支撑:组织支撑、标准支撑、安全支撑,4个过程:采、存、管、用四个过程开展工作。

核心目标以海量、高速、多维、异构数据为基础,通过大数据技术将数据整合起来应用在业务领域,一方面应用于政务领域整体提升城市运行管理、政务服务、城市综合管理决策和产业转型升级等方面能力,加快政府“用数据决策、数据服务、数据创新”的现代化治理模式。另一方面与广大市场主体的创造力更好地结合,寻求应用场景进行落地。同时帮助各类组织建立健全数据合规治理与安全保障体系来驱动业务发展,进行数字化转型。通过紧扣培育数据要素市场发展、释放公共数据资源价值、赋能数字政府建设、激活社会数据资源四个目标的建设过程实现数据治理工作的成果展示。


二、解决的问题

数据治理是一项需要长期被关注的复杂工程,数据治理的治理内容主要包括下面几个部分:

1.标准问题:目前的全市公共数据贯穿各个领域,各政府部门与建设单位的数据标准不一致,数据打通和整合过程中都会出现很多问题。

2.质量问题:也是核心问题,目前的公共数据需要进行深度治理的原因就是数据质量存在问题,包括不限于数据的及时性、准确性、规范性,以及数据应用指标的逻辑一致性问题等。

3.效率问题:在数据开发和数仓的管理过程中都会遇到一些影响效率的问题,包括数据研发效率,数据使用效率,目

前解决问题最常用的方式是靠“盲目”地堆人力在做。

4.成本问题:随着数据量与应用场景的增长,数据膨胀速度会非常快,基础设施的成本与人员成本的投入也将继续攀升。

5.安全问题:任何人都关注数据安全特别是个人数据,一旦泄露,对业务场景的影响非常之大,甚至能左右整个业务场景的生死。


三、保障措施

数据治理需要覆盖数据生命周期的全链路,通常数据治理的内容划分为几大部分:组织、标准规范、技术、衡量指标。整体数据治理的路径是以标准化的规范和组织保障为前提,通过做技术体系整体保证数据治理策略的实现。同时,搭建数据治理的衡量体系,随时观测和监控数据治理的效果,做好长期迭代过程来保障数据治理的发展。

1、标准化

数据标准化包括三个方面:一是标准制定;二是标准执行;三是在标准制定和执行过程中的组织保障,从标准制定上,需要制定一套覆盖数据生产到使用全链路的数据标准方法,从数据采集、数仓开发、指标管理到数据生命周期管理都需建立相应环节的标准化的研发规范,数据从接入到消亡整个生命周期必须全部实现标准化。

2、组织体系

建议政务数据公司增设数据管理室,作为数据管理部门,设四个组,规划组、产品组、开发组、运营组;建议各部门各二、三级公司增设数据管理专员(专/兼职人员)负责本单位的数据归集;建议数据实验室作为数据治理的技术支撑单位。


四、技术系统步骤

在数仓分层上建议采用最常见的四层分层方式,分别是贴源层、明细层、汇总层、应用层和维度信息。为实现应用数据快速供给,区别于业务数仓分层设计方式,应从明细层就按维度建模思路组织数据,避免过度设计,只需要做好主题划分和解耦。在汇总层从分析习惯出发耦合数据,提升易用性。应用层按需创建所需接口支撑应用。

贴源层:来源的原始数据直接入库不做加工,只添加相关时间、备注等基础信息方便溯源。

明细层:按照不同的主题组织数据进行整合加工解耦数据源,针对各类场景所需的详细数据进行筛查并关注、标记,同时此层可作数据探查、数据价值相关工作。

汇总层:按分析对象做一部分的数据聚合与维度建模(维度表和事实表),元数据管理、主特征提取等相关工作均在此层,

应用层:按应用需求进行数据模型开发,实现可视化大屏、API接口、数据报告等数据产品。

维度表:数据产品上线后产生的数据使用情况。

数据治理工作涉及范围较广,工作内容较为繁琐,为提升效能,需通过技术系统化和自动化的方式进一步提效,让系统代替人工。主要从数据规划、数据质量、数据开发等几个方向来实现技术方案。


1、数据采集(数据规划)

规划组的数据规划方案是整体工作的基石,主要以对当前数据来源部门的业务现状进行分析,完成数据和业务的调研为主。调研包括表范围、存储位置、中英文名、来源系统、优先级、更新方式、业务场景以及数据的条数和增量条数等。表级别的数据调研主要是为了数据接入做准备,根据存储位置、来源系统、优先级制定接入计划以及确认哪些资源需要实时接入、哪些资源需要离线接入。字段调研则包括表结构、字段类型格式、样例数据、有值行、有值率、是否需要制定标准、是否挂载已存在标准、值域分布等,字段级别调研可以增加数据标准化的效率。此外通过业务的调研,对指标、模型分层、主题进行初步的梳理为后续的指标和模型设计做准备。


2、数据质量管理

产品组的治理数据质量方案覆盖了数据生命周期的各个环节,主要有统一数仓规范建模、统一指标逻辑管理、统一数据服务。

(1)统一数仓规范建模

通过统一数仓规范建模系统化保障数仓规范执行,做到业务数仓规范标准化,并及时监控和删除重复和过期的数据。主要由三个方面组成。

数仓建模规范,数仓建设最基础的规范,包括分层、命名、码值、指标定义、分层依赖等维度。

主数据管理规范,通常数仓有3-5层构成,为避免数据混乱,每层的各个主题的数据只有一份,一般不得重复开发。

数据使用规范,在查询数据时优先查询主题层,不再提供明细层和贴源层的查询访问入口。

(2)统一指标逻辑管理

使用数据的第一步是构建指标体系,场景的实现目标和执行情况需要通过指标来分析,指标体系的合理性和指标数据的质量直接影响到场景的使用情况。前期我们通过数商的应用场景来积累自身的指标体系,逐渐形成自身的指标建设能力,主要以指标定义规范化与指标管理系统化来实现开发人员对指标管理的认知一致。

指标定义:首先是指标的定义,将业务指标进行分析和拆解,得到原子指标、派生指标以及复合指标,同时明确数据域、业务过程、修饰词、衍生词等相关内容。

指标管理:主要对表的基础元数据信息、表类型(维表或事实表)、表的推荐度、描述信息和样例数据等管理。数据表管理主要是面向开发组,通过维护数据表信息,为数据模型和指标管理提供数据基础支持。

(3)统一数据服务

随着应用场景的增加,数仓对外提供数据的越来越多,常用的提供数据的方式主要包括同步数据表(结果信息)、提供SQL模型和开发定制化API接口等方式,在对外提供的过程中需要着重考虑服务的管控、数据一致性、开发效率和稳定性提升。

服务管控:开发组必须随时了解到数据被哪些场景使用、调用了多少次和数据服务是否稳定等信息。

数据一致性:当应用层数据出现更改时,需要保障所有涉及此项数据的应用场景都需实时同步更新保证数据准确性。

开发效率和稳定性提升:接口的配置化开发与模型算法的强壮是保证效率和稳定性的前提。


3、数仓规范化开发

开发组依照事前、事中、事后进行数仓规范化开发。

事前:以标准化规范为前提进行数仓分层、命名、开发流程、关联关系、代码编写、注释等工作;

事中:以配置化开发作为主要开发手段,具体有集成(ETL)工具开发、数据产品模型开发、数仓分层等工作;

事后:对场景应用产品进行规范化验证,对数据血缘进行分析关注数据使用安全、产品稳定性等工作内容。


五、应用场景

数据安全治理工作将始终秉持着以数据要素价值链为理念,以市场需求为导向,秉持着“安全合规是生命线、安全事件零容忍、详细数据不出域”为原则,将技术创新与应用场景深度融合,全面化、规模化开展数据治理,打造集数据资源+数据产品+服务目录多元结构的数据治理成果,根据现阶段业务场景需求,建立以金融、文旅、农业、政务领域的数据全覆盖为目标的数据治理,通过分析现有场景的数据需求、评分体系,建立体系化的、可持续更新的动态数据支撑体系和配套机制。

主要业务流程工作为首先进行资源梳理形成相关数据实体和关系的知识图谱,再以元数据、主数据、质量、安全合规、模型管理等开展治理及优化工作,最终将治理后的图谱库开展数据统计分析、标签标注等工作以实现模型的快速开发。

(一)金融领域应用场景

大金融领域目前已有普惠、信贷、保险等细分场景,涉及公安、人社、税务、公积金、教育、财政、交通、卫健委、市监、发改等部门数据,主要解决征信机构的个企数据互补、保司的核保放款、绿色金融合作、金融机构的放款资质审查等问题。目前金融领域细分场景较多且从数据评估来说落地性极强。

(二)文旅领域应用场景

文旅领域目前有文物数字化、文旅业态服务、数字营销等细分场景,涉及公安、交通、文旅等部门数据主要提供智能讲解、数字文创藏品、文旅业态产业精准营销等服务内容。目前从数据评估上看还需要OTA(携程、美团等)、银联消费、运营商信令等数据,还需加强生态合作后共同合作开发。

(三)农业领域应用场景

农业领域目前有农产品溯源、农业遥感应用等细分场景,涉及农业农村、自规局、市监等部门数据,主要提供农业产业链数字化追溯、农业全范围精准监测,目前从数据评估上看能够满足,涉及自规局的遥感影像数据还需GIS类公司进行专门的图层建模,还需加强生态合作后共同合作开发。

(四)政务服务应用场景

政务服务领域目前场景较多,主要分为两类,一类是联动指挥类型,为政府提供统一联动协调能力,将涉及的12345、应急、公安、城管、水利等部门的事件数据进行打通后统一分析发放以达到各个部门之间的实时通信做到互联互通、协同作战,可赋能驾驶舱的联动指挥。另一种以数据预测,比如人口流入流出监控、民生诉求分析等场景,主要从数据层面帮助政府部门优化业务和对部门进行数据服务。但是存在一定的公益性行为与牵扯部门较多等问题,具体的合作方式还有待加强研究。

六、总结与展望

经过在数据治理体系化建设上的持续思考与实践,在数据治理的标准化、数字化和系统化三个方向上有了一定的了解,但是目前行业内所用的流程规范、元数据数仓、指标体系、资产分级等工作还是依赖专家经验、人为判断、人工操作的串联行为,所以智能化(如智能化元数据服务、智能化数据标准建设等)、自动化(基于治理框架的治理应用场景的线上化建设等)等既是趋势,也是我们学习的方向和目标。