文档库 最新最全的文档下载
当前位置:文档库 › 数据脱敏大数据架构设计

数据脱敏大数据架构设计

数据脱敏大数据架构设计
数据脱敏大数据架构设计

数据脱敏大数据架构设计

?紫金新闻发布于2019-03-28

需求背景

系统有数据识别、数据脱敏逻辑,支持可配置规则,自定义等,需要进行异构数据同步,大数据量。现在针对以下几个需求进行讲解

1、支持冗余设计

2、支持任务自动分发,支持自动负载均衡

3、支持随时扩容节点而无需关停原有的系统和业务

架构和模块

架构图

脱敏扩展性架构图

五核心模块及其主要功能

?调度平台

?使用Nginx方式来调用数据中心,通过注册中心获取数据中心的服务列表

?可以合理的根据数据同步的情况,去调用服务;比如数据同步可能存在的顺序性,执行延时;?读取控制台DB的配置信息,定时执行数据同步任务

?对数据同步的调用,可以按照简单的轮询方式,也可以根据数据同步服务器的性能情况,进行负载均衡

?数据同步

?负责执行数据库异构数据同步任务,可支持增量,全量模式,用DataX框架来实现

?服务于调度平台的调用

?会存储数据同步的执行结果,供控制台进行展示

?会上报服务器的性能指标到数据同步DB,以供调度平台参考

?控制台

?配置管理界面,服务于用户进行数据同步任务的配置信息,并存储到控制台DB中;

?数据识别

?负责针对数据库的数据进行数据识别任务

?数据脱敏

?按照内置规则、自定义配置,负责脱敏数据

?可提前进行数据脱敏,以供数据同步转换环节调用

三个辅助服务发现模块

?注册中心

?用于服务发现和注册

?数据同步注册实例并定期报心跳

?可以用zookeerper来实现

?调度平台通过域名访问注册中心获取数据同步的地址列表

?Nginx

?和域名系统配合,协助调度平台访问注册中心获取数据同步地址列表

?和域名系统配合,协助用户访问控制台进行配置管理

可用性分析

高可用通过Nginx、注册中心来实现,可以支持动态扩容。每个主要模块都是以无状态集群方式部署的,各自模块都可以通过注册中心来实现服务注册,模块之间的调用服务发现来获取,并以域名方式实现。

考虑到扩展,所以设想的方案是尽可能的做到每个服务职责单一。

这样的拆分,也是考量到每个环节的瓶颈都不一样,目前预估不是很精确,这样可以为后续扩展提供方便性。

数据脱敏、数据识别需要单独独立出来,原因:本身的服务不在数据同步中,可能提前预处理进行。

通过集群部署方式,支持冗余设计。

调度平台、Nginx集群通过数据同步性能情况,实现任务自动分发,支持自动负载均衡。

可用性分析

可用性表格分析

结论

数据同步、控制台、调度平台、数据识别、数据脱敏是数据脱敏的几大核心微服务模块,相互协作完成配置中心业务功能,Nginx、注册中心是辅助微服务之间进行服务发现的模块。

采用微服务架构设计,架构和部署(部署方式可以用容器思路来操作)都有一些复杂,但是每个服务职责单一,易于扩展。

动态数据脱敏技术分析

美创科技 动态数据脱敏技术分析 在当前国内信息安全热潮中,数据脱敏作为数据安全的重要一环得到了业界的认可与重视。早在2012年,数据脱敏首次作为一个单独的魔力象限由Gartner发布,Gartner在2014年又提出了:按照数据使用场景,将数据脱敏分为静态数据脱敏(Static data masking-SDM )与动态数据脱敏(Dynamic data masking-DDM )。 可能有人望文生义,认为动态数据脱敏一定比静态数据脱敏高级。非也非也,静态or动态,取决于脱敏的使用场景,主要是以使用场景为由来选择合适的数据脱敏的模式。 本文主要就动态数据脱敏和静态数据脱敏的区别作解释,着重和大家分析下动态数据脱敏的原理、使用场景、部署方式等,一窥动态数据脱敏如何在隐私数据安全保护中发挥至关重要的作用。 一、动静态数据脱敏“半斤八两” 前面提到了,静态数据脱敏与动态数据脱敏是按脱敏数据的使用场景来区分的。所谓的数据使用环境,主要是指业务系统脱敏之后的数据在哪些环境中使用,一般可分为生产环境和非生产环境(开发、测试、外包、数据分析等)。

l静态数据脱敏(SDM):一般用在非生产环境,将敏感数据从生产环境抽取并脱敏后给到非生产环境使用,常用于培训、分析、测试、开发等非生产系统的数据库; l动态数据脱敏(DDM):常用在生产环境,在访问敏感数据即时进行脱敏,一般用来解决在生产环境需要根据不同情况对同一敏感数据读取时进行不同级别脱敏的场景。? 二、动态数据脱敏实现原理 动态数据脱敏是在用户层对数据进行独特屏蔽、加密、隐藏、审计或封锁访问途径的流程,当应用程序、维护、开发工具请求通过动态数据脱敏(DDM) 时,实时筛选请求的SQL语句,依据用户角色、权限和其他脱敏规则屏蔽敏感数据,并且能运用横向或纵向的安全等级,同时限制响应一个查询所返回的行数。 动态数据脱敏实现原理示意图

安华金和数据库脱敏系统白皮书

安华金和数据库脱敏系统 白皮书

目录 安华金和数据库脱敏系统 (1) 白皮书 (1) 一. 产品简介 (3) 二. 应用背景 (3) 2.1数据库安全已经成为信息安全焦点 (3) 2.2企业需要安全的使用隐私数据 (4) 2.3越发复杂的敏感数据使用场景 (4) 2.4数据安全相关政策与法律法规 (4) 三. 客户价值 (5) 3.1保护隐私数据,满足合规性 (5) 3.2保证业务可靠运行 (5) 3.3实时动态保护生产系统数据 (6) 3.4敏感数据统一管理 (8) 四. 功能特点 (8) 4.1自动识别敏感数据 (8) 4.2灵活的策略和方案管理 (8) 4.3内置丰富脱敏算法 (9) 4.4数据子集管理 (9) 4.5脱敏任务管理 (9) 4.6脱敏数据验证 (10) 4.7动态数据脱敏 (10) 五. 联系我们 ............................................................................................................. 错误!未定义书签。

一. 产品简介 安华金和数据库脱敏系统(简称DBMasker)是一款高性能、高扩展性的数据屏蔽和脱敏产品,采用专门的脱敏算法对敏感数据进行变形、屏蔽、替换、随机化、加密,将敏感数据转化为虚构数据,隐藏了真正的隐私信息,为数据的安全使用提供了基础保障。同时脱敏后的数据可以保留原有数据的特征和分布,无需改变相应的业务系统逻辑,实现了企业低成本、高效率、安全的使用生产的隐私数据。 安华金和数据库脱敏系统脱敏产品,实现了自动识别敏感数据和管理敏感数据,提供灵活的策略和脱敏方案配置,高效可并行的脱敏能力,帮助企业快速实施敏感数据脱敏处理,同时保证数据的有效性和可用性,使脱敏后的数据能够安全的应用于测试、开发、分析,和第三方使用环境中。 安华金和数据库脱敏系统脱敏产品提供了具有极高附加价值的数据动态脱敏功能,该功能在数据库通讯协议层面,通过SQL代理技术,实现了完全透明的、实时的敏感数据掩码能力;在不需要对生产数据库中的数据进行任何改变的情况下,依据用户的角色、职责和其他IT定义规则,动态的对生产数据库返回的数据进行专门的屏蔽、加密、隐藏和审计,确保业务用户、外包用户、兼职雇员、合作伙伴、数据分析、研发和测试团队及顾问能够恰如其分地访问生产环境的敏感数据。 安华金和数据库脱敏系统支持Oracle、MSSQL、Informix等主流数据库,支持Windows、Linux、AIX、Solaris等多个主流数据库应用平台,提供灵活的脱敏规则配置及脱敏规则扩展。 安华金和数据库脱敏系统产品广泛适用于银行、证券、保险等金融机构,同时在政府部门、涉密单位也有良好适用场景。产品在国家等级保护、分级保护等领域均具有很强的政策合规性。 二. 应用背景 2.1 数据库安全已经成为信息安全焦点 在企业和金融机构的后台数据库中,储存着大量的敏感信息,无论是从商业惯例还是数据安全角度,这些敏感信息都应得到有效的保护,一旦发生信息泄密行为,不仅会造成重大的财产损失,也会对企业的名誉造成严重影响。

大数据处理平台构架设计说明书

大数据处理平台及可视化架构设计说明书 版本:1.0 变更记录

目录 1 1. 文档介绍 (3) 1.1文档目的 (3) 1.2文档范围 (3) 1.3读者对象 (3) 1.4参考文献 (3) 1.5术语与缩写解释 (3) 2系统概述 (4) 3设计约束 (5) 4设计策略 (6) 5系统总体结构 (7) 5.1大数据集成分析平台系统架构设计 (7) 5.2可视化平台系统架构设计 (11) 6其它 (14) 6.1数据库设计 (14) 6.2系统管理 (14) 6.3日志管理 (14)

1 1. 文档介绍 1.1 文档目的 设计大数据集成分析平台,主要功能是多种数据库及文件数据;访问;采集;解析,清洗,ETL,同时可以编写模型支持后台统计分析算法。 设计数据可视化平台,应用于大数据的可视化和互动操作。 为此,根据“先进实用、稳定可靠”的原则设计本大数据处理平台及可视化平台。 1.2 文档范围 大数据的处理,包括ETL、分析、可视化、使用。 1.3 读者对象 管理人员、开发人员 1.4 参考文献 1.5 术语与缩写解释

2 系统概述 大数据集成分析平台,分为9个层次,主要功能是对多种数据库及网页等数据进行访采集、解析,清洗,整合、ETL,同时编写模型支持后台统计分析算法,提供可信的数据。 设计数据可视化平台 ,分为3个层次,在大数据集成分析平台的基础上实现大实现数据的可视化和互动操作。

3 设计约束 1.系统必须遵循国家软件开发的标准。 2.系统用java开发,采用开源的中间件。 3.系统必须稳定可靠,性能高,满足每天千万次的访问。 4.保证数据的成功抽取、转换、分析,实现高可信和高可用。

智慧校园软件系统开发整体解决方案

智慧校园软件系统开发整体解决方案 智慧校园软件系统开发整体解决方案 全面智慧化的时代已经到来,作为培养下一代的根基,校园智慧化也是必须要落实的方向之一,源中瑞科从事智慧软件部分开发,为智慧校园打造的解决方案如下,并支持更多的定制化功能开发。 源中瑞可做哪些功能的发开呢?(部分) 一、建成数据集成和服务平台 根据学校数据集成需求,建设内部及外部接口管理和数据集成管理和服务系统,提供统一的对外报送数据接口,提供集成监控和接口的统一管理和管控,提供数据集成平台和数据服务平台,保障数据及接口的可靠性和安全性。 (1)外部系统注册 平台对所有需要从学校已建成的数据中心进行数据对接的外部系统提供注册管理,登记系统名称、系统标示、系统访问地址、单位名称、单位地址、联系方式、联系人、厂商名称、厂商联系人、厂商联系方式等必要信息。 每个系统都由系统自动生成唯一的系统标识,应可以进行手动修改。所有的外部系统对通过唯一标示生成加密后的传输token。 (2)系统数据接入注册 所有外部系统在进行数据对接之前需要接入操作进行注册管理。在学校已建成的数据共享服务的推送接口配置的基础上,增加拉取、

下载两种方式的配置。每种配置方式都需要加入鉴权信息,涵盖口令、令牌等。智慧校园系统开发解决方案:xnbwang(微)欢迎联系。 要求提供如下: 1)接入测试,要求所有的接入操作都能够进行在线测试。 2)接入授权,只有授权的接入操作才能进行数据对接。 3)接入模型管理,提供所有对接数据的数据结构进行管理。 (3)系统接入调度管理 平台通过设置定时任务,对数据推送、下载等提供定时操作,能够从定点、定频、多频次等多个维度进行调度配置。 能够在调度终止的环节上配置限时、预警等多种可选操作,实现调度的安全配置。 (4)数据传输日志管理 平台对所有数据对接进行日志记录,对所有数据传输数据保存详细的历史切片,并提供切片归档管理。 1)推送数据日志监控 记录在推送操作过程发生的所有日志信息,涵盖推送时间、传输方式、数据量等信息;应能对每次推送的数据进行在线核校。 2)拉取数据日志监控 记录在拉取数据过程中发生的过程信息,涵盖数据描述、拉取时间、传输方式、鉴权情况等信息;应能提供每次拉取数据的在线查询3)下载数据日志监控 记录外部系统在下载数据过程中的日志信息,涵盖文件名称、文

数据中心安全建设方案

数据中心安全解决方案

目录 第一章解决方案 (2) 1.1建设需求 (2) 1.2建设思路 (2) 1.3总体方案 (3) 1.3.1 IP准入控制系统 (5) 1.3.2 防泄密技术的选择 (6) 1.3.3 主机账号生命周期管理系统 (6) 1.3.4 数据库账号生命周期管理系统 (7) 1.3.5 令牌认证系统 (8) 1.3.6 数据库审计系统 (8) 1.3.7 数据脱敏系统 (9) 1.3.8 应用内嵌账号管理系统 (10) 1.3.9 云计算平台 (13) 1.3.10 防火墙 (13) 1.3.11 统一安全运营平台 (14) 1.3.12 安全运维服务 (16) 1.4实施效果 (16) 1.4.1 针对终端接入的管理 (16) 1.4.2 针对敏感数据的使用管理 (17) 1.4.3 针对敏感数据的访问管理 (18) 1.4.4 针对主机设备访问的管理 (18) 1.4.5 针对数据库访问的管理 (19) 1.4.6 针对数据库的审计 (20) 1.4.7 针对应用内嵌账号的管理 (22) 1.4.8 安全运营的规范 (22) 1.4.9 针对管理的优化 (23) 第二章项目预算及项目要求....................................................................... 错误!未定义书签。 2.1项目预算.......................................................................................... 错误!未定义书签。 2.1.1 项目一期预算....................................................................... 错误!未定义书签。 2.1.2 一期实现目标....................................................................... 错误!未定义书签。 2.2项目要求.......................................................................................... 错误!未定义书签。 2.2.1 用户环境配合条件............................................................... 错误!未定义书签。

车联网大数据平台架构设计

车联网大数据平台架构设计-软硬件选型 1.软件选型建议 数据传输 处理并发链接的传统方式为:为每个链接创建一个线程并由该线程负责所有的数据处理业务逻辑。这种方式的好处在于代码简单明了,逻辑清晰。而由于操作系统的限制,每台服务器可以处理的线程数是有限的,因为线程对CPU的处理器的竞争将使系统整体性能下降。随着线程数变大,系统处理延时逐渐变大。此外,当某链接中没有数据传输时,线程不会被释放,浪费系统资源。为解决上述问题,可使用基于NIO的技术。 Netty Netty是当下最为流行的Java NIO框架。Netty框架中使用了两组线程:selectors与workers。其中Selectors专门负责client端(列车车载设备)链接的建立并轮询监听哪个链接有数据传输的请求。针对某链接的数据传输请求,相关selector会任意挑选一个闲置的worker线程处理该请求。处理结束后,worker自动将状态置回‘空闲’以便再次被调用。两组线程的最大线程数均需根据服务器CPU处理器核数进行配置。另外,netty内置了大量worker 功能可以协助程序员轻松解决TCP粘包,二进制转消息等复杂问题。 IBM MessageSight MessageSight是IBM的一款软硬一体的商业产品。其极限处理能力可达百万client并发,每秒可进行千万次消息处理。 数据预处理 流式数据处理 对于流式数据的处理不能用传统的方式先持久化存储再读取分析,因为大量的磁盘IO操作将使数据处理时效性大打折扣。流式数据处理工具的基本原理为将数据切割成定长的窗口并对窗口内的数据在内存中快速完成处理。值得注意的是,数据分析的结论也可以被应用于流式数据处理的过程中,即可完成模式预判等功能还可以对数据分析的结论进行验证。 Storm Storm是被应用最为广泛的开源产品中,其允许用户自定义数据处理的工作流(Storm术语为Topology),并部署在Hadoop集群之上使之具备批量、交互式以及实时数据处理的能力。用户可使用任意变成语言定义工作流。 IBM Streams IBM的Streams产品是目前市面上性能最可靠的流式数据处理工具。不同于其他基于Java 的开源项目,Streams是用C++开发的,性能也远远高于其他流式数据处理的工具。另外IBM 还提供了各种数据处理算法插件,包括:曲线拟合、傅立叶变换、GPS距离等。 数据推送 为了实现推送技术,传统的技术是采用‘请求-响应式’轮询策略。轮询是在特定的的时间间隔(如每1秒),由浏览器对服务器发出请求,然后由服务器返回最新的数据给客户端的浏览器。这种传统的模式带来很明显的缺点,即浏览器需要不断的向服务器发出请求,然而HTTP request 的header是非常长的,里面包含的数据可能只是一个很小的值,这样会占用很多的带宽和服务器资源。

测试数据脱敏综合评价体系

测试数据脱敏综合评价体系 摘要 本文提出一种全面的测试数据脱敏方法评价体系,从高效性、有效性、真实性、稳定性及多样性五个方面来对测试数据脱敏需求及脱敏方法进行综合评估。 测试数据脱敏综合评价体系 测试数据脱敏工作通常涉及数据使用方及数据管理方两个角色,测试数据脱敏不仅要保证数据敏感性被去除,还要尽可能满足测试使用方的测试需求,同时还要确保其技术方案是可行且易于管理的。综合两方面角色考虑,本文从高效性、有效性、真实性、稳定性及多样性五个方面提出了一种全面的测试数据脱敏评价指标体系。 (一)有效性 测试数据脱敏的最基本原则就是要去掉数据的敏感性,保证数据安全,这是对测试数据脱敏最基本的要求,即有效性。 有效性主要从以下两个方面进行评价: 1.相对于原有数据,脱敏后数据敏感性的去除程度。例如,对客户姓名采用置为常数的方法进行脱敏,脱敏后所有敏感的姓名数据都被置为某个没有敏感性的字符串,即数据敏感性完全去除;相对的,对客户姓名采用屏蔽若干位字符的方法(张三置为张*)进行脱敏,则脱敏后数据仍然保留了具有敏感性的姓信息,即数据敏感性部分去除。 2.脱敏后数据可能被反推回具有敏感性原始数据的程度。采用的脱敏方法不一样,其破坏脱敏轨迹的程度也不一样,从而最终导致脱敏后数据被反推回脱敏钱数据的程度也不一样。例如,对客户姓名采用置为常数的方法进行脱敏,脱敏结果不可能被反推回原始数据;对客户姓名采用按偏移值查姓名表的方法(按配置的固定偏移值选取表中假的姓名)进行脱敏,如果姓名表及配置偏移值泄露,脱敏结果是可能被反推出原始数据的。 (二)真实性 测试数据最终是需要在测试中使用,越能真实体现原始数据特征的脱敏后数据,越能更好地满足测试工作的需求。这是从数据使用方的角度来看对测试数据脱敏的基本要求,即真实性。 真实性主要从以下两个方面进行评价: 1.相对于原有数据,脱敏后数据业务逻辑特征的保留程度。任何数据都是具备一定业务逻辑特征的,例如客户姓名、身份证号、交易金额等数据都有明显的特征。对客户姓名采用置为常数的方法进行脱敏,脱敏后数据完全保留了客户姓名的特征;相对的,对客户姓名采用每个姓名字符的码值偏移固定值的方法进行脱敏,则脱敏后数据为乱码,完全丧失了客户姓名的特征。 2.相对于原有数据,脱敏后数据统计分布特征的保留程度。任何数据都是具备一定统计分布特征的,例如客户姓名数据中,有单姓多,复姓少,大姓多,小姓少,一些字符高频出现,一些字符根本不会出现等。对客户姓名采用置为常数的方法进行脱敏,脱敏后数据统计分布特征完全被破坏;相对的,对客户姓名采用按偏移值查姓名表的方法(按配置的固定偏移值选取表中假的姓名)进行脱敏,

银监会监管数据标准化报送系统EAST30-北部湾银行.doc

附件 1: 监管数据标准化报送系统升级(E AST3.0)需求说明书 广西北部湾银行股份有限公司 2017 年 4 月

1.系统建设背景 为了更规范的进行金融机构进行监管数据标准化的报送工作, 并对国内的银行业金融机构在监管数据标准化报送规范层面进行统一,银监会于 2017 年 3 月发布了《中国银监会办公厅关于印发银行业金融机构监管数据标准化规范的通知》及相关说明附件,将国内银行业金融机构的监管数据标准化工作进行统一与规范,通知要求国内各银行业金融机构需要按照该发文的要求,进行数据的全面梳理、映射、采集、检核和上报。 2.系统建设价值 根据银监会通知要求,该系统将于2017 年 7 月在全国范围内正式上线运行,能否在规定的时间内完成银监会监管数据标准化报送系 统及相关业务系统的改造,建立一个功能完善、高效率的监管数据标准化报送系统,将直接影响到我行日后与银监会之间日常报备工作的 顺利开展。 3.系统建设目标 根据《中国银监会办公厅关于印发银行业金融机构监管数据标准 化规范的通知》的有关要求以及我行的接口要求,建设EAST数据采集

报送系统,帮助我行(包括我行的所有村镇银行)及时、完整、准确地完成监管数据标准化的报送要求,保证报送质量,提升管理水平,并促进行内业务数据改良以及监管统计分析工作。 建成后系统报送表单如下: 序号主题域表名表名 1 101 机构信息表 2 102 员工表 3 公共信息103 柜员表 4 104 岗位信息表 5 105 机构关系表 6 201 总账会计全科目表 7 202 内部科目对照表 8 203 个人活期存款分户账 9 204 个人活期存款分户账明细记录 10 205 个人定期存款分户账 11 206 个人定期存款分户账明细记录 12 207 对公活期存款分户账 13 会计记账信息类208 对公活期存款分户账 14 209 对公定期存款分户账 15 210 对公定期存款分户账明细记录 16 211 内部分户账 17 212 内部分户账明细记录 18 213 个人信贷分户账 19 214 个人信贷分户账明细记录 20 215 对公信贷分户账 21 216 对公信贷分户账明细记录 22 301 个人基础信息 23 302 个人客户关系信息 24 客户信息类303 对公客户 25 304 股东信息 26 305 关联关系 27 401 信贷合同表 28 402 项目贷款信息表 29 授信交易对手信403 票据票面信息表 30 405 表外授信业务 息 31 406 贸易融资业务信息表 32 407 银团贷款 33 408 委托贷款

数据脱敏平台立项评估报告

数据脱敏平台立项评估报告

1.项目背景 随着IT(信息产业)行业的不断发展,技术日新月异,包括现今最流行的云和大数据,其最终目的都是为了提高信息的利用率、提高其流动性、进一步挖掘信息的价值,因此数据本身的价值越来越高。由于IT的核心是信息,因此,信息在一个企业当中越发凸显其重要性。企业和个人信息价值也随着各行业的发展而不断提升。 不管IT技术和行业如何发展,其安全问题总是如影随形。近年来数据泄漏、销售非法数据获利等事件越发频繁。虽然数据的泄漏并不一定会对企业造成直接的经济损失,但是间接损失和影响是巨大的,或流失大批量的优质客户,或需要承担法律责任。 苏州城市大脑包含城市各行各业的数据,其中涉及到大量的公民敏感信息,储藏着大量的商业价值。另一方面,云平台上的应用和服务在使用数据的过程中也存在着大量的风险。而这种风险一旦变成显示,所带来的损害是无法估量的。 数据脱敏,正如它的叫法那样,在保存数据原始特征的同时改变它的数值,从而保护敏感数据免于未经授权的访问,同时又可以进行相关的数据处理。您可以在保留数据意义和有效性的同时保持数据的安全性并遵从数据隐私规范。借助数据脱敏,信息依旧可以被使用并与业务相关联,不会违反相关规定,而且也避免了数据泄露的风险。 2.建设内容 部署专业的脱敏工具,构建安全可靠的数据安全防护系统,确保本行的企业、个人等隐私数据能有效的进行漂白处理,保障用户隐私数据的泄露风险。要求数据脱敏系统包含丰富的脱敏算法来处理测试环境中的敏感信息,同时确保个人敏感信息的有效性。要求数据脱敏系统能够依据客户的敏感信息类别规则能自动发现各个数据表格内的类别项(如:姓名、出生年月日、地址、身份证信息、电话号码、银行卡号等)中的敏感信息,保障客户生产数据在非生产环境中安全使用,防止敏感信息泄露,满足审计及监管部门要求等功能。 脱敏产品需要同时支持存量历史数据脱敏和实施新增数据的脱敏,保障相同数据在不同时间和脱敏点上得到相同的结果。数据脱敏工作涉及数据使用方及数据管理方两个角色,测试数据脱敏不仅要确保数据敏感性被去除,还要尽可能满足测试使用方的测试需求,同时还要确保其技术方案是可行且易于管理的。

大数据平台数据脱敏关键技术

龙源期刊网 https://www.wendangku.net/doc/f53621620.html, 大数据平台数据脱敏关键技术 作者:周海涛 来源:《电子技术与软件工程》2017年第21期 摘要随着社会的进步,我们逐渐的步入了大数据时代。大数据带给了我们巨大的商业价值,但也有很大的隐患,比如隐私问题、信息保护等方面。大数据的安全问题在于如何在实现数据共享,分享信息的同时保护人们的隐私和敏感问题不被泄露,这正是大数据中安全保护的棘手问题。而脱敏技术正是一个通过对技术和机制的研究,不断的创新来保护用户在共享和使用中出现的问题。数据脱敏可以在用户之间交流共享时保护人们的敏感隐私信息。本文是对在大数据环境下数据脱敏的作用以及出现的问题进行分析和研究,促进人们对其了解和认识。 【关键词】大数据安全数据脱敏信息安全数据隐私 1 概述 我国上层经济与信息技术的不断发展,带动了数据的不断增长,数据已经成为国家发展中不可缺少的一部分。现如今,我们已经迈步到了大数据时代,大数据带给我们方便的同时也存在很多的危险。因此,如何在大数据中方便人们的同时更好的保护人们的敏感隐私信息是我们应该思考的问题。现如今企业收集信息越来越多,到面临的信息泄露问题也越来越严峻。各行业中包含的信息非常敏感和重要,一旦泄露会带给社会甚至国家不可弥补的损失,因此投资大数据对于敏感信息的安全技术必不可少,在第十三个五年规划中有提到“实施国家大数据战略,推动数据资源开放共享”,这说明了大数据安全的保护问题非常重要。如何在各行业各用户进行交换使用的过程中不再造成敏感信息泄露,达到大数据不是看似安全而是非常安全,这是数据产生者和管理者都非常关心的问题。 2 数据脱敏的动机 2.1 敏感数据的安全风险 敏感数据也称为隐私数据,其中包括用户的姓名、电话、身份证号、银行卡号、个人信息等等。这些都是与人们的生活和工作息息相关的,一旦泄露会造成巨大的损失。这些信息都收到不同行业和国家的管制,如果泄露也会造成用户信用问题,财务和法律方面也会有很大影响。随着大数据在人们的生活中越来越受重视,相关企业和部门也应该重视用户的隐私安全,使得双方实现共赢,取得更大的利益。 2.2 当前的数据安全防护手段 由于数据越来越融入人们的生活,信息安全的重要性也不言而喻,而数据安全则是信息安全的重要一方面。就目前来说,数据安全的防护手段有:对称和非对称加密;访问控制;安全审计等。其中对称和非对称加密是指:把原来可解读的明文加密成为不可读的乱码,从而实现

数据库脱敏系统采购参数及要求

数据库脱敏系统采购参数及要求 1主要设备详细参数及要求 1.1数据库脱敏系统(1套) 技术指标项目技术指标要求(基本要求) 数量1套,支持2个数据库,最大支持4个数据库 品牌美创DM100 或中恒华瑞DA100 兼容性要求支持市场主流操作系统(AIX\HPUX\Linux\Windows等)。 支持以下种类的数据库作为源或目标数据源,包括Oracle(9i, 10G, 11G, 12c)、Microsoft SQL Server (2005, 2008,2012)、IBM DB2 (9.5, 9.7, 10.1, 10.5 )、MySQL (5.x) 、Sybase、Informix、南大通用、Gbase,支持Hadoop、Teradata等大数据平台。 硬件规格1U机架式设备,至少配置6个100/1000M Base网络端口,可用于管理或监听,至少配置6个100/1000M RJ45自适应以太网口,支持2个万兆以太网口扩展。 性能要求在硬件资源充足的前提下,数据脱敏速度不低于每秒30万条数据行。 自动发现功能支持数据定义的自动发现功能。数据脱敏系统必须能够访问和获取所兼容的数据库系统当中的数据库定义、表格定义、字段定义、索引定义、约束定义等。 支持特定隐私敏感数据类型的自动发现功能。数据脱敏系统能够根据数据本身的特征,包括类型、长度、数据本身的编码特征、校验算法特征、语义特征等等进行数据分析、分类判断,能够分辨包含但不限于以下种类的隐私数据类型。 包括:中文姓名、身份证号码、电话号码、地址、银行卡号、社保卡号、电子邮件、邮政编码、企业名称、工商注册号、组织机构代码、纳税人识别号。 数据脱敏功能支持手工配置敏感数据类型。 支持用户针对隐私数据自动发现的结果进行修改配置的功能。 对于隐私数据发现功能的运行结果,要求脱敏系统提供专用的界面供用户查看、确认和修改。 支持数据抽取功能。能够对兼容的数据库系统进行数据抽取工作,并支持自动并行抽取功能以提高抽取效率。 数据抽取作业能够支持工作时间暂停和继续功能,并且在定义的工作时间结束后抽取作业能够在暂停点继续运行,以减少对生产系统的影响,支持系统定义和用户自定义的工作日和假日定义 支持增量数据抽取功能,用户能够自定义增量规则。 支持特定分隔符文本格式文件脱敏、支持XML文件脱敏; 支持数据库到数据库、支持文件到文件、支持数据库到文件、支持文件到数据库之间的脱敏; 支持从Dump文件中抽取数据,进行脱敏; 支持脱敏作业的并行处理。

大数据隐私保护技术之脱敏技术

大数据隐私保护技术之脱敏 技术 -标准化文件发布号:(9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII

大数据隐私保护技术之脱敏技术 数据安全是信息安全的重要一环。当前,对数据安全的防护手段包括对称/非对称加密、数据脱敏、同态加密、访问控制、安全审计和备份恢复等。他们对数据的保护各自有各自的特点和作用,今天我主要说数据脱敏这一防护手段。 作者:佚名来源:FreeBuf|2016-11-22 09:40 收藏 分享 前言 这几天学校开始选毕业设计,选到了数据脱敏系统设计的题目,在阅读了该方面的相关论文之后,感觉对大数据安全有了不少新的理解。 介绍 随着大数据时代的到来,大数据中蕴藏的巨大价值得以挖掘,同时也带来了隐私信息保护方面的难题,即如何在实现大数据高效共享的同时,保护敏感信息不被泄露。 数据安全是信息安全的重要一环。当前,对数据安全的防护手段包括对称/非对称加密、数据脱敏、同态加密、访问控制、安全审计和备份恢复等。他们对数据的保护各自有各自的特点和作用,今天我主要说数据脱敏这一防护手段。

许多组织在他们例行拷贝敏感数据或者常规生产数据到非生产环境中时会不经意的泄露信息。例如: 1.大部分公司将生产数据拷贝到测试和开发环境中来允许系统管理员来测试升级,更新和修复。 2.在商业上保持竞争力需要新的和改进后的功能。结果是应用程序的开发者需要一个环境仿真来测试新功能从而确保已经存在的功能没有被破坏。 3.零售商将各个销售点的销售数据与市场调查员分享,从而分析顾客们的购物模式。 4.药物或者医疗组织向调查员分享病人的数据来评估诊断效果和药物疗效。 结果他们拷贝到非生产环境中的数据就变成了黑客们的目标,非常容易被窃取或者泄露,从而造成难以挽回的损失。 数据脱敏就是对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。 数据脱敏系统设计的难点 许多公司页考虑到了这种威胁并且马上着手来处理。简单的将敏感信息从非生产环境中移除看起来很容易,但是在很多方面还是很有挑战的。 首先遇到的问题就是如何识别敏感数据,敏感数据的定义是什么有哪些依赖应用程序是十分复杂并且完整的。知道敏感信息在哪并且知道哪些数据参考了这些敏感数据是非常困难的。 敏感信息字段的名称、敏感级别、字段类型、字段长度、赋值规范等内容在这一过程中明确,用于下面脱敏策略制定的依据。

大数据平台构思方案计划

大数据平台构思方案 (项目需求与技术方案) 一、项目背景 “十三五”期间,随着我国现代信息技术的蓬勃发展,信息化建设模式发生根本性转变,一场以云计算、大数据、物联网、移动应用等技术为核心的“新 IT”浪潮风起云涌,信息化应用进入一个“新常态”。***(某政府部门)为积极应对“互联网+”和大数据时代的机遇和挑战,适应全省经济社会发展与改革要求,大数据平台应运而生。 大数据平台整合省社会经济发展资源,打造集数据采集、数据处理、监测管理、预测预警、应急指挥、可视化平台于一体的大数据平台,以信息化提升数据化管理与服务能力,及时准确掌握社会经济发展情况,做到“用数据说话、用数据管理、用数据决策、用数据创新”,牢牢把握社会经济发展主动权和话语权。 二、建设目标 大数据平台是顺应目前信息化技术水平发展、服务政府职能改革的架构平台。它的主要目标是强化经济运行监测分析,实现企业信用社会化监督,建立规范化共建共享投资项目管理体系,推进政务数据共享和业务协同,为决策提供及时、准确、可靠的信息依据,提高政务工作的前瞻性和针对性,加大宏观调控力度,促进经济持续健康发

展。 1、制定统一信息资源管理规范,拓宽数据获取渠道,整合业务信息系统数据、企业单位数据和互联网抓取数据,构建汇聚式一体化数据库,为平台打下坚实稳固的数据基础。 2、梳理各相关系统数据资源的关联性,编制数据资源目录,建立信息资源交换管理标准体系,在业务可行性的基础上,实现数据信息共享,推进信息公开,建立跨部门跨领域经济形势分析制度。 3、在大数据分析监测基础上,为政府把握经济发展趋势、预见经济发展潜在问题、辅助经济决策提供基础支撑。 三、建设原则 大数据平台以信息资源整合为重点,以大数据应用为核心,坚持“统筹规划、分步实施,整合资源、协同共享,突出重点、注重实效,深化应用、创新驱动”的原则,全面提升信息化建设水平,促进全省经济持续健康发展。

大数据脱敏脱需求文档_v02

Hbase数据脱敏系统 需求分析 文件状态[ √] 草稿[ ] 正式发布[ ] 正在修改项目编号: 当前版本:0.2 作者: 完成日期: 发布确认签字项目经理: 需求分析师:

版本历史 版本号:版本从0.1开始编制,正式发布的版本从1.0开始编制,小改动增加0.1,大改动增加1.0 修订类型:创建、增加、修改、删除、审批 版本号修订类型修订说明日期变更 人 批准人日期 V0.1 创建编制Hbase数据脱敏系 统需求分析说明书 2017.5.08 V0.2 修改修改Hbase数据脱敏系 统需求分析说明书 2017.5.12

一引言 (1) 1.1 编写目的 (1) 1.2 背景 (1) 1.2.1 需求缘由 (1) 1.2.2 硬件部署环境 (1) 1.2.3 软件部署环境 (1) 1.3 术语定义 (2) 1.4 名词解释 (2) 1.5 参考材料 (2) 二需求描述 (3) 2.1 需求点概述 (3) 2.2 需求点描述 (3) 2.2.1 G-01:下发策略 (4) 2.2.2 G-02:策略管理 (4) 2.2.3 G-03:规则管理 (4) 2.2.4 G-04:敏感信息管理 (5) 2.2.5 G-05:用户管理 (5) 2.2.6 G-06:角色管理 (6) 2.3 产品视图 (6) 2.4 用户特性 (7) 2.5 总体约束 (7) 三功能总结 (8) 3.1 概述 (8) 3.2 功能需求 (10) 3.2.1 F-02-01 用户登录 (10) 3.2.2 F-02-02 用户管理 (11) 3.2.3 F-02-03 角色管理 (11) 3.2.4 F-02-04 策略管理 (12) 3.2.5 F-02-05 规则制定 (13) 3.2.6 F-02-6 操作日志管理 (13) 3.2.7 F-02-7 数据访问日志管理 (14) ........................................................................................................................ 错误!未定义书签。 3.3 接口需要......................................................................................... 错误!未定义书签。 3.4 性能需求 (15) 3.5 质量需求 (15) 四待确认的问题列表 (15)

大数据平台架构设计说明书

大数据平台 总体架构规格说明书 V1.0版

●目录 ●目录 (2) I.简介 (4) 1.目的 (4) 2.词汇表 (4) 3.引用 (4) II.整体介绍 (5) 1.系统环境 (5) 2.软件介绍 (5) 3.用途 (6) 4.简介 (6) 5.核心技术 (7) ●大规模并行处理MPP (7) ●行列混合存储 (8) ●数据库内压缩 (8) ●内存计算 (9) 6.M ASTER N ODE (9) 7.D ATA N ODE (9) III.MASTER NODE (10) 1.简介 (10) 2.C ONTROL 模块 (10) 3.SQL模块 (10) 4.A CTIVE-P ASSIVE SOLUTION (16) IV.DATA NODE (19) 1.简介 (19) 2.重要模块 (19)

3.数据存储 (20) 4.数据导入 (21) V.分布式机制 (23) 1.概括 (23) 2.数据备份和同步 (24) 3.时间同步机制 (27) 4.分布式LEASE机制查询过程备忘 (27) VI.内存管理机制 (29) VII.V3.0版的初步设计思路 (30)

I.简介 1.目的 本文详细描述了DreamData数据库系统。介绍了系统的目标、功能、系统接口、系统行为、系统约束以及系统如何响应。本文面向系统参与者以及系统开发人员。 2.词汇表 3.引用

II.整体介绍 1.系统环境 图 1 –系统环境 2.软件介绍 DreamData是在从分布式数据库的基础上发展而来,同时加入一些NoSQL的基因的新一代大数据实时分析分布式数据库,并且支持内存计算。 DreamData最大的特色就是大而快,它能极快地导入和处理海量的数据,并在这个基础上能极快地进行用户所需数据统计和分析。相对传统数据库Oracle而言,DreamData的单机性能要高出50倍以上,并且随着节点数量的增加,整体性能会同步提升。

安华金和数据脱敏系统(DMS)

安华金和数据脱敏系统(DMS) ?2019安华金和 ■版权声明 本文中出现的任何文字叙述、文档格式、插图、照片、方法、过程等内容,除另有特别注明,版权均属安华金和所有,受到有关产权及版权法保护。任何个人、机构未经安华金和的书面授权许可,不得以任何方式复制或引用本文的任何片断。

目录 安华金和数据脱敏系统(DMS) (1) 目录 (2) 一. 关于安华金和 (3) 1.1发展历史 (3) 1.2产品路标 (4) 二. 数据脱敏系统(DMS) (5) 2.1产品概述 (5) 2.2客户价值 (5) 2.2.1 实现隐私数据管理的政策合规 (5) 2.2.2 防止生产库中敏感数据泄露 (5) 2.2.3 提高数据维护和共享安全性 (5) 2.3产品优势 (6) 2.3.1 静态脱敏技术实用全面 (6) 2.3.2 动态脱敏技术实时保护 (7) 2.4适用场景 (7)

一. 关于安华金和 1.1 发展历史 北京安华金和科技有限公司(以下简称安华金和),2009年3月2日成立,长期专注于数据安全领域,是中国专业的数据安全产品及解决方案提供商。安华金和由长期致力于数据处理和信息安全的专业人士共同创造,作为中国“数据安全治理”体系框架的提出者,安华金和提供涵盖人员组织、安全策略、流程制定及技术支撑全方位的整体数据安全思路与方案;同时,安华金和作为独立的第三方云数据安全服务商(CDSP),为国内外各大云平台用户提供专业的数据安全保障;安华金和也是中国最大的公有云平台——阿里云在数据安全领域的战略合作方。 安华金和总部位于北京,分设北京营销中心与天津研发中心,下设11大分支机构,业务覆盖华北、东北、华东、华中、华南、西南等全国省市地区。在政府、军工、金融、能源、教育、医疗、企业等各大行业建立多个标杆案例,并取得了良好的信誉口碑。 安华金和以“让数据使用更安全”为最高使命,立志成为世界级数据安全厂商。 围绕该愿景,安华金和主营业务方向分为三大部分: 1、围绕数据库的安全,安华金和推出全线数据库安全产品及解决方案; 2、以整体数据库安全产线为技术支撑,安华金和推出数据安全治理解决方案,面向重点行业推广与实践; 3、基于公有云和私有云环境特征,安华金和推出公有云数据安全服务和私有云数据安全解决方案。

《实时大数据平台规划设计方案》

实时大数据平台规划设计方案 一、相关概念背景 1.1 从现代数仓架构角度看待实时数据平台 现代数仓由传统数仓发展而来,对比传统数仓,现代数仓既有与其相同之处,也有诸多发展点。首先我们看一下传统数仓(图1)和现代数仓(图2)的模块架构: 图1 传统数仓

图2 现代数仓 传统数仓大家都很熟悉,这里不做过多介绍,一般来说,传统数仓只能支持T+1天时效延迟的数据处理,数据处理过程以ETL为主,最终产出以报表为主。 现代数仓建立在传统数仓之上,同时增加了更多样化数据源的导入存储,更多样化数据处理方式和时效(支持T+0天时效),更多样化数据使用方式和更多样化数据终端服务。 现代数仓是个很大的话题,在此我们以概念模块的方式来展现其新的特性能力。首先我们先看一下图3中Melissa Coates的整理总结:

在图3 Melissa Coates的总结中我们可以得出,现代数仓之所以“现代”,是因为它有多平台架构、数据虚拟化、数据的近实时分析、敏捷交付方式等等一系列特性。 在借鉴Melissa Coates关于现代数仓总结的基础上,加以自己的理解,我们也在此总结提取了现代数仓的几个重要能力,分别是: ?数据实时化(实时同步和流式处理能力) ?数据虚拟化(虚拟混算和统一服务能力) ?数据平民化(可视化和自助配置能力) ?数据协作化(多租户和分工协作能力) ? ?

1)数据实时化(实时同步和流式处理能力) 数据实时化,是指数据从产生(更新至业务数据库或日志)到最终消费(数据报表、仪表板、分析、挖掘、数据应用等),支持毫秒级/秒级/分钟级延迟(严格来说,秒级/分钟级属于准实时,这里统一称为实时)。 这里涉及到如何将数据实时的从数据源中抽取出来;如何实时流转;为了提高时效性,降低端到端延迟,还需要有能力支持在流转过程中进行计算处理;如何实时落库;如何实时提供后续消费使用。实时同步是指多源到多目标的端到端同步,流式处理指在流上进行逻辑转换处理。 但是我们要知道,不是所有数据处理计算都可以在流上进行,而我们的目的,是尽可能的降低端到端数据延迟,这里就需要和其他数据流转处理方式配合进行,后面我们会进一步讨论。 2) 数据虚拟化(虚拟混算和统一服务能力) 数据虚拟化,是指对于用户或用户程序而言,面对的是统一的交互方式和查询语言,而无需关注数据实际所在的物理库和方言及交互方式(异构系统/异构查询语言)的一种技术。用户的使用体验是面对一个单一数据库进行操作,但其实这是一个虚拟化的数据库,数据本身并不存放于虚拟数据库中。 虚拟混算指的是虚拟化技术可以支持异构系统数据透明混算的能力,统一服务指对于用户提供统一的服务接口和方式。

数据脱敏大数据架构设计

数据脱敏大数据架构设计 ?紫金新闻发布于2019-03-28 需求背景 系统有数据识别、数据脱敏逻辑,支持可配置规则,自定义等,需要进行异构数据同步,大数据量。现在针对以下几个需求进行讲解 1、支持冗余设计 2、支持任务自动分发,支持自动负载均衡 3、支持随时扩容节点而无需关停原有的系统和业务 架构和模块 架构图

脱敏扩展性架构图 五核心模块及其主要功能 ?调度平台 ?使用Nginx方式来调用数据中心,通过注册中心获取数据中心的服务列表 ?可以合理的根据数据同步的情况,去调用服务;比如数据同步可能存在的顺序性,执行延时;?读取控制台DB的配置信息,定时执行数据同步任务 ?对数据同步的调用,可以按照简单的轮询方式,也可以根据数据同步服务器的性能情况,进行负载均衡 ?数据同步 ?负责执行数据库异构数据同步任务,可支持增量,全量模式,用DataX框架来实现 ?服务于调度平台的调用 ?会存储数据同步的执行结果,供控制台进行展示 ?会上报服务器的性能指标到数据同步DB,以供调度平台参考 ?控制台 ?配置管理界面,服务于用户进行数据同步任务的配置信息,并存储到控制台DB中; ?数据识别 ?负责针对数据库的数据进行数据识别任务

?数据脱敏 ?按照内置规则、自定义配置,负责脱敏数据 ?可提前进行数据脱敏,以供数据同步转换环节调用 三个辅助服务发现模块 ?注册中心 ?用于服务发现和注册 ?数据同步注册实例并定期报心跳 ?可以用zookeerper来实现 ?调度平台通过域名访问注册中心获取数据同步的地址列表 ?Nginx ?和域名系统配合,协助调度平台访问注册中心获取数据同步地址列表 ?和域名系统配合,协助用户访问控制台进行配置管理 可用性分析 高可用通过Nginx、注册中心来实现,可以支持动态扩容。每个主要模块都是以无状态集群方式部署的,各自模块都可以通过注册中心来实现服务注册,模块之间的调用服务发现来获取,并以域名方式实现。 考虑到扩展,所以设想的方案是尽可能的做到每个服务职责单一。 这样的拆分,也是考量到每个环节的瓶颈都不一样,目前预估不是很精确,这样可以为后续扩展提供方便性。 数据脱敏、数据识别需要单独独立出来,原因:本身的服务不在数据同步中,可能提前预处理进行。 通过集群部署方式,支持冗余设计。 调度平台、Nginx集群通过数据同步性能情况,实现任务自动分发,支持自动负载均衡。 可用性分析 可用性表格分析

相关文档
相关文档 最新文档