文档库 最新最全的文档下载
当前位置:文档库 › 大数据隐私保护密码技术研究综述

大数据隐私保护密码技术研究综述

大数据隐私保护密码技术研究综述
大数据隐私保护密码技术研究综述

软件学报ISSN 1000-9825, CODEN RUXUEW E-mail: jos@https://www.wendangku.net/doc/1d11732484.html, Journal of Software,2015,26(4):945?959 [doi: 10.13328/https://www.wendangku.net/doc/1d11732484.html,ki.jos.004794] https://www.wendangku.net/doc/1d11732484.html, ?中国科学院软件研究所版权所有. Tel: +86-10-62562563

?

大数据隐私保护密码技术研究综述

黄刘生1,2, 田苗苗1,2, 黄河3

1(中国科学技术大学计算机科学与技术学院,安徽合肥 230026)

2(中国科学技术大学苏州研究院,江苏苏州 215123)

3(苏州大学计算机科学与技术学院,江苏苏州 215006)

通讯作者: 田苗苗, E-mail: miaotian@https://www.wendangku.net/doc/1d11732484.html,

摘要: 大数据是一种蕴含大量信息、具有极高价值的数据集合.为了避免大数据挖掘泄露用户的隐私,必须要对大数据进行必要的保护.由于大数据具有总量庞大、结构复杂、处理迅速等特点,传统的保护数据隐私的技术很多都不再适用.从密码学的角度,综述了近年来提出的、适用于大数据的隐私保护技术的研究进展.针对大数据的存储、搜索和计算这3个重要方面,分别阐述了大数据隐私保护的研究背景和主要研究方向,并具体介绍了相关技术的最新研究进展.最后指出未来大数据隐私保护研究的一些重要方向.

关键词: 大数据;隐私;存储;搜索;计算

中图法分类号: TP309

中文引用格式: 黄刘生,田苗苗,黄河.大数据隐私保护密码技术研究综述.软件学报,2015,26(4):945?959.http://www. https://www.wendangku.net/doc/1d11732484.html,/1000-9825/4794.htm

英文引用格式: Huang LS, Tian MM, Huang H. Preserving privacy in big data: A survey from the cryptographic perspective. Ruan Jian Xue Bao/Journal of Software, 2015,26(4):945?959 (in Chinese).https://www.wendangku.net/doc/1d11732484.html,/1000-9825/4794.htm

Preserving Privacy in Big Data: A Survey from the Cryptographic Perspective

HUANG Liu-Sheng1,2, TIAN Miao-Miao1,2, HUANG He3

1(School of Computer Science and Technology, University of Science and Technology of China, Hefei 230026, China)

2(Suzhou Institute for Advanced Study, University of Science and Technology of China, Suzhou 215123, China)

3(School of Computer Science and Technology, Soochow University, Suzhou 215006, China)

Abstract: Big data is a type of data set with rich information and significant value. To avoid leakage of user privacy during big data mining, some necessary measures on big data need to be placed. Since big data has huger volume, more complex structure and less tolerance of delays, traditional privacy preserving technologies are mostly unsuitable for preserving privacy of big data. From a cryptographic perspective, this paper surveys the recent progress on privacy preserving technologies for big data. Three basic problems in big data, namely storage, search and computation, are investigated, and their research background and main research directions are elaborated. The latest research progress of privacy preserving technologies for these problems is also presented. Finally, some important directions of privacy preserving technologies for big data are suggested.

Key words: big data; privacy; storage; search; computation

大数据(big data)是一个新兴的概念,主要是指大量的、非结构化的数据.这些数据的产生主要是由于近几年传感技术、社会网络和移动设备的快速发展和大规模普及,导致数据量以指数形式快速增加并且数据的类型和相互关系也变得更加复杂多样.根据IBM的统计,现在世界上每天大约产生250亿亿字节的数据[1];2012年

?基金项目: 国家自然科学基金(61170058, 61202407, 61202028, 613032067)

收稿时间:2014-01-20; 修改时间: 2014-04-15; 定稿时间: 2014-11-25; jos在线出版时间: 2015-02-02

CNKI网络优先出版: 2015-02-02 15:32, https://www.wendangku.net/doc/1d11732484.html,/kcms/detail/11.2560.TP.20150202.1532.007.html

946 Journal of Software 软件学报 V ol.26, No.4, April 2015 EMC/IDC 的调查显示,世界上的数据总量在过去两年翻了一番,达到2.8 ZB(1ZB=10244GB)[2].大数据体量庞大、增长迅速,而且来源广泛、类型繁多.根据这些特点可以知道,与以往的大型数据集相比,一方面,通过挖掘大量的、相互关联的大数据能够得到更多有价值的信息,另一方面,由于数据量及数据类型的急剧增加,现有的数据处理技术很难在合理的时间内对大数据进行有效的处理.

目前对大数据的认识,比较有代表性的是IDC 的4V 定义[3],即大数据具有数量庞大(volume)、处理迅速(velocity)、类型多样(variety)和价值量高(value)这4个特点.数量庞大是大数据的基本特征,是指大数据的数据含量从传统的大型数据集的TB 级增加到至少PB 级;处理迅速是大数据的典型需求,是指为了最大化大数据的价值,对它的处理通常必须很快;类型多样是大数据的内在特性,是指大数据包含的数据类型非常多样,包括文本、图片、音频、视频等;价值量高是大数据的终极意义,是指大数据中原本碎片化的信息能够通过整合而得到更多有价值的信息.大数据蕴含的巨大价值得到了产业界、学术界和政府部门的高度关注与重视,纷纷开展相关的研究来挖掘大数据带来的巨大价值(具体实例参见文献[4]中的第2节).然而在使用大数据挖掘出各种各样的信息、享受大数据带来的便利时,我们的隐私也不可避免地受到大数据的严重威胁.因此,如何在充分利用大数据的同时不泄露用户的隐私,是一个非常重要的现实问题,关系到大数据研究的发展前途.

大数据的保护隐私问题本质上是一种数据隐私保护问题,而数据隐私是指数据拥有者不愿意被披露的敏感数据或者数据所表征的特性[5].因此,保护大数据隐私最根本的是保护敏感数据不被泄露,也就是说大数据的隐私问题本质上是大数据的泄露问题.在大数据的整个生命周期内,可能发生数据泄露的领域目前来看主要包括大数据的存储、搜索和计算.与传统的数据隐私保护不同,大数据的存储、搜索和计算这3个方面所面临的隐私保护问题都是新型的隐私保护问题,是由大数据规模大、增长速度不可预知等特点带来的.具体来说,由于大数据体量很大且增长速度不可预知,导致传统的存储模式不再适用于大数据.云计算[6,7]作为一种新型的商业模式,其提供的服务之一——存储服务,具有专业、经济和按需分配的特点,正好适合大数据的存储需求.因此,大数据一般存储在云上,由云存储服务提供者进行管理.虽然将大数据存放在云上极大地方便了数据的拥有者,但是云存储服务提供者并不完全可信(如文献[8]中的实例),这导致,(1) 数据拥有者必须验证存储在云上数据的完整性,防止数据被破坏;(2) 数据可能将以密文形式存储,所以数据拥有者需要高效的密文搜索算法来搜索存储在云上的加密数据;(3) 数据拥有者需要安全地利用云上的数据进行计算.图1展示了大数据隐私保护协议的整体框架.

在大数据的存储方面,虽然目前

已有很多协议可以较为高效地验证存

储在云上的大数据的完整性[9?18],但

是这些协议都需要数据拥有者亲自验

证(文献[18]中的协议REDACT 允许

第三方验证数据的完整性,但是该协

议每次仅能验证一个数据块,效率较

低).限于数据拥有者的专业水平、计

算能力等原因,令其频繁地验证大数

据的完整性是不切实际的.因此在大

数据完整性验证协议中引入第三方审

计机构是一个自然的选择.然而,这种依赖于第三方的大数据完整性验证方法可能会将数据拥有者的数据泄露给审计机构.这就是说,大数据在存储阶段面临隐私泄露风险的主要原因是大数据的完整性验证协议采用了第三方审计机构.因此,大数据存储方面的主要隐私保护问题是如何设计一种安全高效的、能够阻止数据拥有者的数据泄露给第三方审计机构的大数据完整性验证协议.

在大数据的搜索方面,我们知道大数据可能以明文或者密文两种方式存储,

按照这两种不同的存储方式分

Cloud server Third party Data owner Initialization Fig.1 Framework of big data privacy preserving protocols 大数据隐私保护协议架构

黄刘生等:大数据隐私保护密码技术研究综述947

类,大数据的搜索可分为明文搜索和密文搜索两种模式.如果大数据以明文方式存储,则相应的大数据搜索问题即为传统的数据查询和数据发布问题,否则,大数据的搜索即为对密文的搜索.大数据以密文方式存储主要是因为这类大数据较为机密,如果大数据的机密性较低或者机密数据因为某些原因被解密,比如某用户得到数据拥有者的授权而获取某些机密数据等,此时大数据将(或者可以看作)以明文方式存储.以明文形式存储的大数据,如果对搜索不加以限制和防范必然会泄露数据的隐私,因此研究人员设计了很多保护隐私的明文搜索算法[5,19?38].然而这类搜索算法在大数据环境下很多都不适用,因为保护隐私的明文搜索算法往往需要对敌手的背景知识给出较为理想的假定,而这种假设恰恰与大数据具有的高度相关性矛盾,所以大多数保护隐私的明文搜索算法在大数据环境下是不安全的.本文考虑的大数据隐私保护搜索算法主要是密文搜索算法,这类算法比明文搜索算法更加安全.虽然密文搜索算法已不是新鲜事物,但是这类算法的安全性仅仅依赖于敌手的计算能力,与敌手的背景知识无关,所以更适用于大数据的隐私保护搜索.此外,对密文搜索算法的综述文章也鲜见于文献.在保护隐私的大数据密文搜索问题中,由于机密数据以密文形式存储,因此可以忽略数据泄露的问题而将隐私保护的重点放在如何设计满足大数据实际需求的密文搜索算法上.

另外,在大数据环境下,数据拥有者或者其他用户通常希望利用存储在云上的大数据,因此他们可能会需要云服务提供商计算特定的大数据并将计算结果返回.然而作为计算输入的大数据或者计算结果可能是非常机密的,所以保护隐私的大数据计算问题就是指如何能够安全地计算大数据而不泄露机密数据或计算结果给第三方.显然,对于机密数据而言,直接将其提交给云服务提供商进行计算是不明智的,因此在大数据的计算中,数据和计算结果都需要以密文形式保存.在这种情况下,处理大数据计算问题的一个有效的方法就是使用同态加密方案[39?41].实际上,能够完全保护大数据计算隐私的技术几乎也仅限于同态加密方案(虽然某些同态加密方案的派生方案也能保护大数据的计算隐私,但是由于它们本质上完全依赖于同态加密方案,所以本文不予讨论).由于大数据中用户较多,各用户所要求的计算问题可能也比较多,简单的同态加密方案是不适用的,所以本文关注的保护隐私的大数据计算方法是指完全同态加密方案,它可以对密文作任意复杂的计算,能够在理论上完美地解决大数据的隐私保护计算问题.

本文首先从大数据的存储、搜索和计算这3个基本方面分别介绍相关隐私保护算法的最新研究进展,然后指出下一步需要解决的若干重要问题.

1 大数据完整性审计协议

本节首先给出大数据完整性审计协议的基础知识,然后介绍相关协议的研究进展.

1.1 基础知识

大数据完整性审计协议有3个参与者:数据拥有者(data owner)、云存储服务提供者(cloud server)和第三方审计机构(auditor).协议的核心算法包括:系统建立算法、挑战和应答算法以及验证算法.下面对具体算法进行详细的介绍.

(1) 系统建立算法:该算法对应系统的初始化阶段.输入系统的安全参数,该算法将输出一些公共参数以及数据拥有者的公私钥对.然后数据拥有者将原始数据进行分块,用其私钥计算每个数据块的同态验证标签(homomorphic verifiable tag,简称HVT).最后数据拥有者将HVT和相应的数据块一同存储在云服务器上,并将其公钥发送给第三方审计机构.

(2) 挑战应答算法:该算法是协议的主要部分.审计机构选择合适时机验证存储在云服务器上的大数据的完整性.当进行验证时,审计机构发送一个随机挑战(challenge)至云服务器,该挑战包括随机选择的部分数据块的标示符以及数据块所对应的随机数.云服务器接到挑战后,利用其存储的HVT和相应的数据块计算证明(proof)并将其返回.

(3) 验证算法:该算法用来验证响应的正确性.审计机构利用公共参数和数据拥有者的公钥来验证云服务器发送的响应是否正确.如果应答正确,审计机构能以一定的概率确认数据是完整的,否则数据一定出现了损坏.如果审计机构希望以更高的概率确认数据是否完整,它可以重复多次运行挑战应答算法和验证算法.

948 Journal of Software软件学报 V ol.26, No.4, April 2015

为了降低协议的通信开销,在实际的协议设计中,云服务器发送的不是单个数据块的线性变换,而是一组数据块的线性组合,其中组合系数是由审计机构确定的.如果审计机构获得足够多的云服务器对挑战的应答,那么审计机构可以轻松地通过解线性方程组而得到数据拥有者的数据.因此保护隐私的第三方审计协议的目的就是在完成验证数据完整性的前提下确保数据拥有者的数据不泄露给审计机构.

1.2 协议研究进展

目前,验证大数据完整性的第三方审计协议按照是否允许恢复原始数据分类,总体上可以分为只能验证数据完整性的PDP(proof of data possession)协议[42]和允许恢复数据的POR(proof of retrievability)协议[12]两类.这两类协议验证数据完整性的算法基本相同,主要区别是POR协议在验证数据完整性的基础上加入了纠错编码技术以便恢复原始数据.按照其他标准,例如协议是否允许数据动态变化,是否允许第三方验证,是否允许无限次的挑战或者是否保护数据拥有者的隐私等,这两类协议均可以再细分.由于大数据的完整性审计协议要求第三方在没有数据拥有者私钥的情况下能够独立地验证大数据的完整性,所以本文只关注允许第三方验证的PDP协议和POR协议.下面介绍相关协议的研究进展,其中重点关注协议是否适用于大数据以及是否具有隐私保护功能.

在PDP协议方面,首个支持第三方验证的PDP协议ABCH+07是由Ateniese等人[42]基于RSA困难问题而设计的.之后,Ateniese等人[43]提出了从任意同态认证协议构造允许第三方验证的PDP协议的一般框架,并首次具体实现了一种基于因子分解问题的PDP协议.以上协议都允许无限次挑战,能够避免频繁的系统建立过程,但是均不具有隐私保护功能,也不支持数据的动态变化.Hao等人[44]通过将数据块的标签公开,设计了一种新的基于RSA问题的支持第三方验证的PDP协议HZY11,该协议允许无限次挑战、能够保护数据拥有者的隐私并且还支持数据的动态变化.基于因数分解问题和RSA问题设计的PDP协议所需要的通信开销和存储开销都较大,Wang等人[45]采用双线性配对技术基于离散对数问题(discrete logarithm problem,简称DLP)提出了一种支持第三方验证的PDP协议.Wang等人声称该协议允许无限次挑战询问并且具有隐私保护功能,但是Xu等人[46]指出恶意的云存储服务提供者可以在数据受到破坏的情况下依然能够通过该PDP协议的检查.基于BLS短签名[47]技术,Hao等人[48]设计了一种安全的支持第三方公开验证的新PDP协议HY10.该协议可以进行无限次挑战询问并且能够验证多重副本数据的完整性,但是不能保护数据拥有者的隐私,也不支持对数据的动态操作.Zhu等人[49]基于双线性配对技术和Index-hash表设计了一种支持数据动态变化的第三方审计PDP协议,该协议允许无限次挑战询问并能够保护数据拥有者的隐私.考虑到数据拥有者可能将文件存放在多个云服务器上,Zhu等人[50]基于同态可验证响应(homomorphic verifiable response,简称HVR)和分层的哈希索引(hash index hierarchy,简称HIH)提出了一种适用的PDP协议ZHAY12,该协议允许无限次挑战询问并且支持第三方审计机构验证数据的完整性.通过引入一个可信组织,ZHAY12协议也能够保护数据拥有者的隐私,然而却不支持对数据的动态操作.此外,以上两个协议都需要较大的计算和通信开销.为了解决这些问题,Yang等人[51]利用双线性配对的特点设计了一个高效的保护隐私的第三方审计PDP协议YJ13.该协议能够对多个数据拥有者存储在多个云服务器上的数据进行批量审计,并且支持数据的动态操作,也允许审计机构进行无限次挑战询问.表1列出了几种PDP协议的比较结果.

在POR协议方面,Juels和Kaliski[12]提出的首个POR协议JK07仅支持数据拥有者自己验证数据的完整性.首个允许第三方审计机构验证数据完整性的POR协议SW08是由Shacham和Waters[52]基于BLS短签名设计出来的.该协议在随机预言模型下是安全的,允许无限次挑战询问但不能保护数据拥有者的隐私,也不支持数据的动态变化.Bowers等人[53]提出了一个POR协议的理论框架,并对已有的JK07协议和SW08协议进行了优化.Dodis等人[54]采用困难放大HA(hardness amplification)技术设计了一种比SW08协议更加高效的允许第三方审计的POR协议DVW09,该协议在标准模型下是安全的并且允许无限次挑战询问.但是,与SW08协议相同,DVW09协议不具有隐私保护功能,也不支持对数据的动态操作.为了支持对数据的动态操作,Wang等人[55]基于BLS短签名和Merkle哈希树构造了一个允许数据动态变化的第三方审计POR协议WWLR+09.在此基础上,Wang等人[56]利用聚合签名技术[57]进一步将WWLR+09协议扩展为允许对多个数据拥有者的数据进行批量

黄刘生等:大数据隐私保护密码技术研究综述949

审计的POR协议WWRL+11,但这些协议都不能保护数据拥有者的隐私.表2列出了几种POR协议的比较结果.

Table 1 Comparison of several PDP protocols

表1几种PDP协议比较

Protocol Preserve privacy Dynamic operation Multiple replica Security assumption

ABCH+07[42]No No No RSA

HZY11[44] Yes Yes No RSA

HY10[48] No No Yes DLP

ZHAY12[50] Yes Yes Yes DLP

YJ13[51] Yes Yes Yes DLP

Table 2 Comparison of several POR protocols

表2几种POR协议比较

Protocol Preserve privacy Dynamic operation Multiple replica Security assumption

SW08[52]No No No DLP

DVW09[54]No No No DLP WWLR+09[55]No Yes No DLP WWRL+11[56]No Yes No DLP 2 大数据密文搜索算法

本节首先给出密文搜索算法的基础知识,然后分别对可搜索的对称加密算法和公钥加密算法的研究进展

进行介绍.

2.1 基础知识

大数据的密文搜索算法有3个参与方:数据拥有者(data owner)、云存储服务提供者(cloud server)和检索人(searcher),其中检索人可能是数据拥有者.他们涉及的具体算法概括下来包括下面4种.(1) 系统建立算法:该算

法由数据拥有者运行,主要用来生成系统参数和数据拥有者的密钥.输入安全参数、数据拥有者生成系统的公

开参数和自己的私钥.当考虑的是可搜索的公钥加密算法时,公开参数也包括数据拥有者的公钥.(2) 数据加密

算法:该算法用来加密可搜索的数据.输入公开参数和数据明文,该算法输出相应的密文(有时该算法还会输出

加密的数据关键词的索引表).如果是可搜索的对称加密算法,则该算法还需输入数据拥有者的私钥.(3) 令牌生

成算法:当检索人需要搜索数据时,检索人需要向数据拥有者提交搜索请求,然后数据拥有者运行该算法对请求

进行响应.该算法输入检索条件和数据拥有者的私钥,输出一个令牌(token)或称为陷门.(4) 数据检索算法:检索

人利用该令牌逐一测试密文或索引是否满足指定的检索条件,仅当满足条件时,该算法才输出相应的密文或者

索引.

如果大数据加密之后存储,由于大数据是以密文的形式存在,所以在密文搜索阶段不太可能会泄漏大数据

的隐私.然而在这种情况下,为了保证大数据的可用性,必须要求对密文能够进行有效的检索和查询,所以本阶

段的主要问题是如何设计能够满足大数据特点的可搜索的加密算法,即如何设计安全、运行效率高且允许对一

般数据进行复杂搜索请求的密文搜索算法.下面分别介绍可搜索的对称加密算法和公钥加密算法的研究进展.

2.2 可搜索的对称加密算法

Song等人[58]首先考虑了在加密数据上搜索目标数据的问题,并设计了一种基于对称加密的密文搜索算法SWP00,但是该算法的搜索效率和安全性都不高.Goh[59]和Chang等人[60]分别给出了可搜索的对称加密算法更

强的安全定义,并且分别基于布鲁姆过滤器[61]和伪随机函数提出了改进的可搜索对称加密算法.Curtmola等

人[62]针对以往可搜索的对称加密算法的安全定义相对较弱的问题,提出了一种更强的安全模型,并基于树结构

设计了高效的算法CJKO06.此外,Curtmola等人在文献[62]中也首次给出了允许多个用户搜索的可搜索对称加

密算法的定义以及一种具体的算法,但是当用该算法处理频繁升级大数据时将非常耗时.为了解决这个问

题,Van Liesdonk等人[63]设计了一种新的可搜索的对称加密算法VSDH+10,该算法具有较高的搜索效率并且允

许数据系统快速升级.以上可搜索的对称加密算法仅考虑了被动敌手的攻击,然而在大数据环境下数据拥有者

存放在云服务器上的加密数据可能会被云存储服务提供商主动删除,因此能够抵抗敌手主动攻击的可搜索的

950 Journal of Software软件学报 V ol.26, No.4, April 2015

对称加密算法更加适用.针对这个问题,Kurosawa等人[64]给出了抗主动敌手攻击的可搜索的对称加密算法的定义以及一个通用可组合(universally composable,UC)[65]安全的高效算法KO12.Kamara等人[66]针对之前的可搜索的对称加密算法的搜索效率、动态性和安全性不能完全兼顾的情况,提出了一种动态的可搜索的对称加密算法KPR12,该算法达到当时已知的最高安全性并且具有很高的搜索效率.之后Kamara等人[67]改进了文献[66]中的方案,改进方案具有更高的安全性和搜索效率,特别地,改进方案还允许并行操作.Chase和Kamara[68]考虑了更加一般的可搜索的对称加密问题,即对结构化的数据加密后的搜索问题,并且在文献[68]中给出了可搜索的结构化对称加密算法的定义、模型以及一些具体方案.此外,为了满足多关键词的搜索需求,Golle等人[69]给出了允许多关键词搜索的对称加密算法的安全模型和具体方案GSW04.随后,Ballard等人[70]利用秘密分享和双线性对技术提出了性能更高的改进方案BKM05.

由于上述可搜索的对称加密算法都只允许简单的精确匹配,也就是说,用户输入的搜索仅仅是针对某一具体密文的,而对于更加复杂的搜索请求,比如区间搜索,这类算法是无效的.为了处理这一问题,Agrawal等人[71]引入了保序加密(order-preserving encryption,简称OPE)的概念,并给出了一种具体的算法AKSX04.OPE能够保证密文顺序和对应明文顺序的一致性,便于云服务器对大数据的管理,也能处理区间搜索请求.然而早期的OPE 算法在安全性和效率方面都不尽如人意.例如,Agrawal等人提出的OPE算法AKSX04需要输入所有数据才能对数据进行加密,并且他们也没有给出算法正式的安全性证明.Boldyreva等人[72]重新回顾了OPE这一概念,正式定义了OPE的安全模型,并利用伪随机函数和超几何分布设计了一种可证安全的OPE算法BCLO09.该算法一经提出便在云计算的数据隐私保护方面发挥了巨大的作用[73,74].随后,Boldyreva等人[75]对OPE算法BCLO09的安全性进行了更加深入的分析,并且提出了高效的有序加密(efficiently orderable encryption,简称EOE)的概念以及一种具体算法BCO11.EOE扩展了OPE,泛指任意可以实现区间搜索的对称加密算法.Popa等人[76]针对以往保序加密方案的安全性较差的问题,提出了一种安全性更高的保序加密算法PLZ13.

表3对可搜索的对称加密算法进行了总结.

Table 3 Comparison of several searchable symmetric encryption algorithms

表3几种可搜索的对称加密算法比较

Algorithm Search pattern Efficiency Security Dynamic

[58] No

No

Medium

CJKO06[62] Single

keyword Medium

Yes

keyword High Medium

VSDH+10[63] Single

No

Medium High

KO12[64] Single

keyword

keyword Medium High

Yes KPR12[66] Single

keywords Low Medium No

GSW04[69] Multiple

keywords Medium Medium No

BKM05[70] Multiple

AKSX04[71] Range

query Low Low No

No BCLO09[72] Range

query Low Medium

No

Medium

query Medium

BCO11[75] Range

High

No

query Medium

PLZ13[76] Range

2.3 可搜索的公钥加密算法

Boneh等人[77]将可搜索加密从对称密码体制转移到公钥密码体制中来,首次提出了可搜索关键词的公钥加密的概念,并基于双线性对技术给出了几种具体的算法.然而,Abdalla等人[78]指出,Boneh等人的方案不满足一致性.在此基础上,Abdalla等人提出可搜索关键词的公钥加密算法的新定义,以及一个新方案和相关的扩展.此外,Abdalla等人在文献[78]中也给出了从基于身份的匿名加密方案设计可搜索关键词的公钥加密算法的一般方法.Baek等人[79]针对Boneh等人的方案[77]需要安全通道的问题,基于文献[80]的聚合签名技术提出了一个不需要安全通道的可搜索关键词的公钥加密方案BSS08,该方案在随机预言模型下是可证安全的.Rhee等人[81]提出了一个安全性更高的不需要安全通道的可搜索的公钥加密方案,但该方案仍然是在随机预言模型下安全的.为了消除随机预言机,Fang等人[82]基于Gentry[83]标准模型下安全的基于身份的加密方案设计了首个标准模型下安全的不需要安全通道的可搜索的公钥加密方案FSGW09.针对大多数可搜索的公钥加密算法都依赖于双线性对的问题,Crescenzo等人[84]利用Cocks[85]的基于身份的加密方案设计了一种基于二次剩余问题的可搜

黄刘生等:大数据隐私保护密码技术研究综述951

索的公钥加密算法DS07.

为了设计搜索效率更高的可搜索的公钥加密算法,Bellare等人[86]提出了确定性加密(deterministic encryption,简称DE)的概念,并且指出确定性加密是一类高效的可搜索的公钥加密方案(确定性加密是指对于同一个公钥和明文,确定性加密算法输出的密文相同).此外,Bellare等人也给出了在随机预言模型下可证安全的确定性加密方案BBO07.随后,Bellare等人[87]利用单向陷门置换函数设计了标准模型下可证安全的确定性加密方案BFOR08,但是方案要求所加密的消息必须是随机独立的.Boldyreva等人[88]基于有损陷门函数(lossy trapdoor function,简称LTF)[89]也给出了标准模型下可证安全的确定性加密方案,方案所加密的消息虽然没有额外的限制,但是方案基于的安全模型却较弱.Fuller等人[90]统一了确定性加密方案,指出确定性加密方案可以统一地利用陷门函数构造.由于在大规模系统中,敌手可能会得到用户的额外信息,而之前的确定性加密的安全模型没有体现这种情况,因此可能在实际使用中并不安全.为此,Brakerski和Segev[91]提出了具有额外输入的确定性加密的概念并设计了两个方案.第1个方案在d-linear Diffie-Hellman假设下可以保证即使在多用户的环境下也是安全的,而第2个方案在一般的子群不可区分假设下是可证安全的.Wee[92]提出了双投影哈希(dual projective has,简称DPH)的概念,指出Brakerski和Segev提出的两个具有额外输入的确定性加密方案可以统一地由双投影哈希构造.此外,Wee也基于格(lattice)上LWE假设[93]设计了一种具有额外输入的确定性加密方案W12.Xie等人[94]基于格上LWE假设也设计了一种标准模型下安全的具有额外输入的确定性加密算法XXZ12. Mironov等人[95]注意到确定性加密算法所加密的数据往往比较大,而数据之间的差别有时却很小,为了提高以往确定性加密算法的计算效率,Mironov等人提出了增量确定性加密(incremental deterministic encryption,简称IDE)的概念,并给出了由普通确定性加密算法设计增量确定性加密算法的一般方法.此外,值得一提的是,Cui等人[96]基于编码理论也设计了一种确定性加密方案.

以上可搜索的公钥加密算法仅允许关键词的精确匹配,为了支持更一般的搜索请求,Boneh等人[97]设计了允许关键词比较、子集查询以及任意合取连接词查询的可搜索的公钥加密方案BW07.针对BW07算法的效率和安全性都较低的问题,Hwang等人[98]给出了一个改进方案HL07,并将其扩展到多用户搜索的场景中.Katz等人[99]利用更加复杂的双线性对技术提出了查询谓词可以为任意析取连接词、多项式和内积的可搜索关键词的公钥加密方案KSW08.表4对可搜索的公钥加密算法进行了总结.

Table 4 Comparison of several searchable asymmetric encryption algorithms

表4几种可搜索的公钥加密算法比较

Algorithm Search pattern Efficiency Security model Security ssumption

[79] DLP

keyword Low SM DLP FSGW09[82] Single

keyword Low ROM QR DS07[84] Single

keyword Medium ROM RSA BBO07[86] Single

keyword Medium SM Permutation BFOR08[87] Single

keyword Medium ROM LWE W12[92] Single

XXZ12[94] Single

keyword Medium SM LWE

query Low SM DH BW07[97] Subset

HL07[98] Subset

query Medium ROM DLDH

query Low SM DLP,RSA KSW08[99] General

3 大数据安全计算问题

在大数据的应用中,安全地计算用户的数据、保护用户的隐私是大数据面临的一个基本问题.如前文所述,由于大数据中的计算问题非常复杂、多样,所以适用于特定计算情况的隐私保护算法通常不能满足大数据的需求.为此,必须选择一个功能较全面的方案来保护用户的计算隐私.完全同态加密(fully homomorphic encryption, 简称FHE)算法是一个合适的选择(实际上,其他类型的安全计算问题,如安全多方计算[100]等都可以由完全同态加密实现[101,102]).本节首先给出完全同态加密的基础知识,然后介绍相关的研究进展.

3.1 基础知识

典型的完全同态加密方案包括两个参与者:用户(user)和云服务提供者(cloud server),其中用户是数据的拥

952 Journal of Software软件学报 V ol.26, No.4, April 2015

有者.用户通常首先将其数据加密之后存放于云服务器上,当用户需要对云上的数据进行计算时,会发送通知给云服务器,然后云对数据进行相应的计算并最后将计算结果返回给用户.下面对完全同态加密的基础知识作一些介绍.

完全同态加密方案简单来说就是一种不需要密钥就能够实现对密文进行任意操作的加密方案,一般包括密钥生成(keygen)、加密(encrypt)、求值(evaluate)和解密(decrypt)4种算法.(1) 密钥生成算法:该算法输入安全参数,输出用户的公钥和私钥.(2) 加密算法:该算法输入用户的公钥和明文数据,输出相应的密文.(3) 求值算法:该算法输入用户的公钥、一个函数和一组密文,输出一个新密文.(4) 解密算法:该算法输入用户的私钥和密文,输出对应的明文数据.

根据上面对算法的描述可知,在大数据的安全计算中,用户可以首先请求云调用求值算法对密文进行操作,然后云将计算结果返回给用户,最后用户利用私钥进行解密得到期望的结果.为了满足大数据计算应用对响应时间和安全性的要求,完全同态加密方案的研究主要集中于提高其运行效率和安全性,本节下面将着重对这两个方面进行介绍.

3.2 完全同态加密方案

同态加密方案不是新事物,实际上,在Gentry[41]于2009年提出完全同态加密方案之前已经有了一些具有同态性质的加密方案,它们主要基于因数分解和离散对数问题.虽然这些方案的效率尚可,但是有两个致命的弱点使得它们不能用来保护大数据的计算隐私.其一是这些方案仅允许执行较为简单的加密操作,例如文献[39,103,104]中的同态加密方案只允许对密文进行加法操作,文献[40]中的同态加密方案只能对密文进行乘法操作,Boneh等人的方案[105]虽然能够对密文进行更复杂的操作,但也仅仅限于二次函数.大数据的实际应用需要对密文进行较为复杂的操作,以上同态加密方案显然不能满足这种需求.此外,考虑到大数据存在的长期性,从安全的角度来看,上述同态加密方案也是不可取的,因为它们在未来的量子时代是不安全的[106].可喜的是, Gentry在文献[41]中基于格上困难问题设计了首个完全同态加密方案G09,它允许任意复杂的操作并且在量子时代也是安全的,从而解决了上述问题.Gentry和Halevi[107]完整地实现了G09方案,运行结果显示该方案需要较大的时间和空间开销.Scholl和Smart[108]以及Stehle和Steinfeld[109]分别改进了G09方案,得到了两个运行效率更高的完全同态加密方案.

在G09方案的基础上,Smart和Vercauteren[110]利用中国剩余定理设计了一个密钥和消息长度都较小的完全同态加密方案SV10.Gentry等人在文献[111]中采用将明文打包的方法,基于R-LWE问题[112]设计了一个时间开销仅为多项式对数(polylog)的完全同态加密方案,随后在文献[113]中又通过将模设置为2的幂的近似值,得到了一个效率更高的完全同态加密方案GHS12.以上这些完全同态加密方案使用的明文打包技术仅限于R-LWE问题,Brakerski等人[114]利用Peikert等人[115]的打包技术设计了一种基于标准LWE问题的完全同态加密方案BGH13,该方案概念更加简单,并且具有更高的安全性.

Gentry最初的完全同态加密方案G09的安全性基于理想格中一种判定问题和稀疏子集求和问题(sparse subset sum problem,简称SSSP),而这两个问题都仅能规约到平均情况下的困难问题.为了将完全同态加密方案建立在更安全的基础之上,Gentry在文献[116]中设计了一种新的密钥生成算法,将完全同态加密方案的安全性建立在稀疏子集求和问题和理想格中一种最坏情况下的困难问题之上.然而方案仍然需要平均情况下困难的稀疏子集求和问题.Brakerski和Vaikuntanathan[117,118]基于标准LWE问题和R-LWE问题分别设计了两个新的完全同态加密方案,由于LWE问题和R-LWE问题都可规约到最坏困难问题,所以新方案具有更高的安全性.随后,Brakerski等人[119]对文献[117,118]中的两个完全同态加密方案的具体参数进行了改进.鉴于以往基于LWE 和R-LWE问题的完全同态加密方案的安全性需要量子规约,Brakerski[120]利用尺寸不变性,设计了一种新的完全同态加密方案B12,该方案具有很高的效率,安全性可以使用经典技术规约到格上的困难问题.为了有效地对不同用户的加密数据进行计算,Lopez-Alt等人[101]在理想格中设计了一种允许多个密钥参与的完全同态加密方案,该方案比传统的完全同态加密方案更加灵活、实用,是一次大的创新.然而其安全性却依赖于一个非标准的假设.Bos等人[121]采用Brakerski[120]提出的张量技术消除了这个非标准假设.

黄刘生等:大数据隐私保护密码技术研究综述953

上述完全同态加密方案都基于格问题,描述较为复杂,不易理解.van Dijk等人[122]在整数环上设计了一个容易理解的完全同态加密方案VGHV10,其安全性依赖于近似最大公约数(approximate-greatest common divisor, 简称A-GCD)问题.Coron等人[123]针对van Dijk等人方案的公钥过大的问题,给出了一个改进的方案.改进方案具有较短的公钥,但是安全性基于较强的近似最大公约数假设.Chen和Nguyen[124]针对这个较强的近似最大公约数假设给出了一种有效的攻击算法,指出Coron等人的方案[123]实际上是不安全的.随后,Coron等人[125]又提出了一个新的整数环上的完全同态加密方案CNT12,该方案的效率比以往的更高,安全性依赖于标准的近似最大公约数问题.为了更有效地处理整数环上的完全同态加密方案,类比于格上的方案,Cheon等人[126]设计了两个整数环上的批处理完全同态加密方案.第1个方案的安全性依赖于判定近似最大公约数问题,而第2个方案的安全性则依赖于无误近似最大公约数问题.表5对完全同态加密方案进行了总结.

Table 5 Comparison of several fully homomorphic encryption schemes

表5几种完全同态加密方案比较

assumption

Scheme Efficiency Security

G09[41]Low SSSP

SV10[110] Medium SSSP

GHS12[113] Medium R-LWE

BGH13[114] Low LWE

B12[120] Medium GapSVP

VGHV10[122] Low A-GCD

CNT12[125] Medium A-GCD

4 总结和展望

本文介绍了大数据在存储、搜索和计算这3个方面的隐私保护问题并分别介绍了相关的研究进展.这3个方面的隐私问题是所有类型的大数据所面临的主要隐私问题,然而对某一具体的大数据来说,这3个问题不一定全部都需要考虑.例如,有些公司的大数据是一些非机密数据,在这种情况下,该公司就不需要保护其大数据的搜索隐私.如果存储某公司大数据的云服务器是该公司自有,此时大数据的计算隐私问题也就自动消除.根据本文的介绍可以看出,虽然已有一些工具能够处理大数据这3个方面的隐私问题,但是这些工具仍有很多方面亟待改进.具体来说,有以下方向值得进一步研究.

(1) 在大数据的完整性审计协议方面,目前还没有能够保护数据拥有者隐私的支持数据动态变化的第三方审计POR协议.鉴于POR协议具有数据恢复功能,比PDP协议具有更高的实用价值,所以设计这类POR协议是大数据隐私保护研究的一个重要方向.

(2) 在大数据的安全搜索方面,虽然目前可搜索的对称加密算法和公钥加密算法在某些方面表现不错,但是仍然没有一种算法能够同时支持一般结构数据的动态变化和多关键词搜索.由于大数据的结构更复杂、动态性更强、搜索请求更多样,所以设计这类算法是非常重要的.

(3) 目前的完全同态加密方案可以很好地解决大数据的安全计算问题,并且已有的基于LWE问题的部分完全同态加密方案也能达到较为理想的安全性,但是这些完全同态加密方案的运行效率仍不高,不能满足大数据的实时性要求.因此设计运行效率更高的完全同态加密算法仍是一个重要的研究方向.

References:

[1] Taylor J. What is Big Data. 2011. https://www.wendangku.net/doc/1d11732484.html,/software/data/bigdata

[2] News Room. Study: Only 1% of World’s Data is Analyzed, Less Than 20% Protected. 2012. https://www.wendangku.net/doc/1d11732484.html,/

2012/12/study-only-1-of-worlds-data-is-analyzed-less-than-20-protected

[3] Barwick H. IIIS: The ‘four Vs’ of Big Data. 2011. https://www.wendangku.net/doc/1d11732484.html,.au/article/396198/iiis_four_vs_big_data/

[4] Li G, Cheng X. Research status and scientific thinking of big data. Bulletin of the Chinese Academy of Sciences, 2012,27(6):

647?657 (in Chinese with English abstract).

[5] Zhou SG, Li F, Tao YF, Xiao XK. Privacy preservation in database applications: A survey. Chinese Journal of Computers, 2009,

32(5):847?861 (in Chinese with English abstract). [doi: 10.3724/SP.J.1016.2009.00847]

954 Journal of Software软件学报 V ol.26, No.4, April 2015

[6] Armbrust M, Fox A, Griffith R, Joseph AD, Katz R, Konwinski A, Lee G, Patterson D, Rabkin A, Stoica I, Zaharia M. A view of

cloud computing. Communications of the ACM, 2010,53(4):50?58. [doi: 10.1145/1721654.1721672]

[7] Feng DG, Zhang M, Zhang Y, Xu Z. Study on cloud computing security. Ruan Jian Xue Bao/Journal of Software, 2011,22(1):

71?83 (in Chinese with English abstract). https://www.wendangku.net/doc/1d11732484.html,/1000-9825/3958.htm [doi: 10.3724/SP.J.1001.2011.03958]

[8] Gohring N. Amazon’s S3 down for several hours. 2008. https://www.wendangku.net/doc/1d11732484.html,/businesscenter/article/142549/amazons s3 down

for several hours.html

[9] Ateniese G, Di Pietro R, Mancini LV, Tsudik G. Scalable and efficient provable data possession. In: Proc. of the 4th Int’l Conf. on

Security and Privacy in Communication Netowrks. New York: ACM Press, 2008. 1?10. [doi: 10.1145/1460877.1460889]

[10] Erway C, Küp?ü A, Papamanthou C, Tamassia R. Dynamic provable data possession. In: Proc. of the 16th ACM Conf. on

Computer and Communications Security (CCS). New York: ACM Press, 2009. 213?222. [doi: 10.1145/1653662.1653688]

[11] Curtmola R, Khan O, Burns R, Ateniese G. MR-PDP: Multiple-Replica provable data possession. In: Proc. of the 28th IEEE Int’l

Conf. on Distributed Computing Systems (ICDCS). Beijing: IEEE Computer Society, 2008. 411?420. [doi: 10.1109/ICDCS.2008.

68]

[12] Juels A, Kaliski BS. PORs: Proofs of retrievability for large files. In: Proc. of the 14th ACM Conf. on Computer and

Communications Security (CCS). New York: ACM Press, 2007. 584?597. [doi: 10.1145/1315245.1315317]

[13] Shacham H, Waters B. Compact proofs of retrievability. In: Advances in Cryptology-ASIACRYPT 2008. Berlin, Heidelberg:

Springer-Verlag, 2008. 90?107. [doi: 10.1007/978-3-540-89255-7_7]

[14] Dodis Y, Vadhan S, Wichs D. Proofs of retrievability via hardness amplification. In: Proc. of the 6th Theory of Cryptography

Conference (TCC). Berlin, Heidelberg: Springer-Verlag, 2009. 109?127. [doi: 10.1007/978-3-642-00457-5_8]

[15] Zheng Q, Xu S. Fair and dynamic proofs of retrievability. In: Proc.of the 1st ACM Conf. on Data and Application Security and

Privacy. New York: ACM Press, 2011. 237?248. [doi: 10.1145/1943513.1943546]

[16] Bowers KD, Juels A, Oprea A. HAIL: A high-availability and integrity layer for cloud storage. In: Proc. of the 16th ACM Conf. on

Computer and Communications Security (CCS). New York: ACM Press, 2009. 187?198. [doi: 10.1145/1653662.1653686]

[17] Deswarte Y, Quisquater J, Saidane A. Remote integrity checking. In: Proc. of the 6th Working Conf. on Integrity and Internal

Control in Information Systems (IICIS). Berlin, Heidelberg: Springer-Verlag, 2004. 1?11. [doi: 10.1007/1-4020-7901-X_1]

[18] Chang EC, Xu J. Remote integrity check with dishonest storage server. In: Proc.of the 13th European Symp. on Research in

Computer Security (ESORICS). Berlin, Heidelberg: Springer-Verlag, 2008. 223?237. [doi: 10.1007/978-3-540-88313-5_15]

[19] Agrawal R, Srikant R. Privacy-Preserving data mining. In: Proc. of the ACM SIGMOD Conf. on Management of Data (SIGMOD).

New York: ACM Press, 2000. 439?450. [doi: 10.1145/342009.335438]

[20] Warner SL. Randomized response: A survey technique for eliminating evasive answer bias. Journal of the American Statistical

Association, 1965,60(309):63?69. [doi: 10.1080/01621459.1965.10480775]

[21] Fienberg SE, McIntyre J. Data swapping: Variations on a theme by dalenius and reiss. In: Proc. of the Privacy in Statistical

Databases. Berlin, Heidelberg: Springer-Verlag, 2004. 14?29. [doi: 10.1007/978-3-540-25955-8_2]

[22] Evfimievski A, Srikant R, Agrawal R, Gehrke J. Privacy preserving mining of association rules. Information Systems, 2004,29(4):

343?364. [doi: 10.1016/j.is.2003.09.001]

[23] Kantarcioglu M, Clifton C. Privacy-Preserving distributed mining of association rules on horizontally partitioned data. IEEE Trans.

on Knowledge and Data Engineering, 2004,16(9):1026?1037. [doi: 10.1109/TKDE.2004.45]

[24] Vaidya J, Clifton C. Privacy preserving association rule mining in vertically partitioned data. In: Proc. of the 8th ACM SIGKDD

Int’l Conf. on Knowledge Discovery and Data Mining (SIGKDD). New York: ACM Press, 2002. 639?644. [doi: 10.1145/775047.

775142]

[25] Vaidya J, Clifton C. Privacy-Preserving k-means clustering over vertically partitioned data. In: Proc. of the 9th ACM SIGKDD Int’l

Conf. on Knowledge Discovery and Data Mining (SIGKDD). New York: ACM Press, 2003. 206?215. [doi: 10.1145/956750.

956776]

[26] Jagannathan G, Wright RN. Privacy-Preserving distributed k-means clustering over arbitrarily partitioned data. In: Proc. of the 11th

ACM SIGKDD Int’l Conf. on Knowledge Discovery and Data Mining (SIGKDD). New York: ACM Press, 2005. 593?599. [doi: 10.

1145/1081870.1081942]

[27] Sweeney L. k-Anonymity: A model for protecting privacy. Int’l Journal on Uncertainty, Fuzziness and Knowledge-based Systems,

2002,10(5):557?570. [doi: 10.1142/S0218488502001648]

[28] Sweeney L. Achieving k-anonymity privacy protection using generalization and suppression. Int’l Journal on Uncertainly,

Fuzziness and Knowledge-Based Systems, 2002,10(5):571?588. [doi: 10.1142/S021848850200165X]

黄刘生等:大数据隐私保护密码技术研究综述955

[29] LeFevre K, DeWitt DJ, Ramakrishnan R. Incognito: Efficient full-domain k-anonymity. In: Proc. of the ACM SIGMOD Conf. on

Management of Data (SIGMOD). New York: ACM Press, 2005. 49?60. [doi: 10.1145/1066157.1066164]

[30] Machanavajjhala A, Kifer D, Gehrke J, Venkitasubramaniam M. l-Diversity: Privacy beyond k-anonymity. ACM Trans. on

Knowledge Discovery from Data, 2007,1(1):1?52. [doi: 10.1145/1217299.1217300]

[31] Li N, Li T, Venkatasubramanian S. t-Closeness: Privacy beyond k-anonymity and l-diversity. In: Proc. of the 23rd IEEE Int’l Conf.

on Data Engineering (ICDE). Istanbul: IEEE Computer Society, 2007. 106?115. [doi: 10.1109/ICDE.2007.367856]

[32] Zhu Q, Zhao T, Wang S. Privacy preservation algorithm for service-oriented information search. Chinese Journal of Computers,

2010,33(8):1315?1323 (in Chinese with English abstract). [doi: 10.3724/SP.J.1016.2010.01315]

[33] Fung B, Wang K, Chen R, Yu PS. Privacy-Preserving data publishing: A survey of recent developments. ACM Computing Surveys,

2010,42(4):1?53. [doi: 10.1145/1749603.1749605]

[34] Dwork C. Differential privacy. In: Proc. of the 33rd Int’l Colloquium on Automata, Languages and Programming (ICALP). Berlin,

Heidelberg: Springer-Verlag, 2006. 1?12. [doi: 10.1007/978-1-4419-5906-5_752]

[35] Dwork C. Differential privacy: A survey of results. In: Proc. of the 5th Int’l Conf. on Theory and Applications of Models of

Computation (TAMC). Berlin, Heidelberg: Springer-Verlag, 2008. 1?19. [doi: 10.1007/978-3-540-79228-4_1]

[36] Dwork C. The differential privacy frontier. In: Proc. of the 6th Int’l Conf. on Theory of Cryptography Conf. (TCC). Berlin,

Heidelberg: Springer-Verlag, 2009. 496?502. [doi: 10.1007/978-3-642-00457-5_29]

[37] Mironov I, Pandey O, Reingold O, Vadhan S. Computational differential privacy. In: Advances in Cryptology-CRYPTO 2009.

Berlin, Heidelberg: Springer-Verlag, 2009. 126?142. [doi: 10.1007/978-3-642-03356-8_8]

[38] Friedman A, Schuster A. Data mining with differential privacy. In: Proc. of the 16th ACM SIGKDD Int’l Conf. on Knowledge

Discovery and Data Mining (SIGKDD). New York: ACM Press, 2010. 493?502. [doi: 10.1145/1835804.1835868]

[39] Paillier P. Public-Key cryptosystems based on composite degree residuosity classes. In: Advances in Cryptology—EURO-

CRYPT’99. Berlin, Heidelberg: Springer-Verlag, 1999. 223?238. [doi: 10.1007/3-540-48910-X_16]

[40] ElGamal T. A public key cryptosystem and a signature scheme based on discrete logarithms. IEEE Trans. on Information Theory,

1985,31(4):469?472. [doi: 10.1109/TIT.1985.1057074]

[41] Gentry C. Fully homomorphic encryption using ideal lattices. In: Proc. of the 41st Annual ACM Symp. on Theory of Computing

(STOC). New York: ACM Press, 2009. 169?178. [doi: 10.1145/1536414.1536440]

[42] Ateniese G, Burns R, Curtmola R, Herring J, Kissner L, Peterson Z, Song D. Provable data possession at untrusted stores. In: Proc.

of the 14th ACM Conf. on Computer and Communications Security (CCS). New York: ACM Press, 2007. 598?609. [doi: 10.1145/ 1315245.1315318]

[43] Ateniese G, Kamara S, Katz J. Proofs of storage from homomorphic identification protocols. In: Advances in Cryptology—

ASIACRYPT 2009. Berlin, Heidelberg: Springer-Verlag, 2009. 319?333. [doi: 10.1007/978-3-642-10366-7_19]

[44] Hao Z, Zhong S, Yu N. A privacy-preserving remote data integrity checking protocol with data dynamics and public verifiability.

IEEE Trans. on Knowledge and Data Engineering, 2011,23(9):1432?1437. [doi: 10.1109/TKDE.2011.62]

[45] Wang C, Wang Q, Ren, K, Lou W. Privacy-Preserving public auditing for data storage security in cloud computing. In: Proc. of the

29th IEEE INFOCOM. San Diego: IEEE Communications Society, 2010. 1?9. [doi: 10.1109/INFCOM.2010.5462173]

[46] Xu C, He X, Abraha-Weldemariam D. Cryptanalysis of Wang’s auditing protocol for data storage security in cloud computing. In:

Proc. of the 2012 Int’l Conf. on Information Computing and Applications (ICICA), Part II. Berlin, Heidelberg: Springer-Verlag, 2012. 422?428. [doi: 10.1007/978-3-642-34041-3_59]

[47] Boneh D, Lynn B, Shacham H. Short signatures from the Weil pairing. In: Advances in Cryptology—ASIACRYPT 2001. Berlin,

Heidelberg: Springer-Verlag, 2001. 514?532. [doi: 10.1007/3-540-45682-1_30]

[48] Hao Z, Yu N. A multiple-replica remote data possession checking protocol with public verifiability. In: Proc. of the 2nd Int’l Symp.

on Data, Privacy and E-Commerce. Buffalo: IEEE Computer Society, 2010. 84?89. [doi: 10.1109/ISDPE.2010.20]

[49] Zhu Y, Wang H, Hu Z, Ahn GJ, Hu H, Yau SS. Dynamic audit services for integrity verification of outsourced storages in clouds.

In: Proc. of the 2011 ACM Symp. on Applied Computing (SAC). New York: ACM Press, 2011. 1550?1557. [doi: 10.1145/1982185.

1982514]

[50] Zhu Y, Hu H, Ahn GJ, Yu M. Cooperative provable data possession for integrity verification in multi-cloud storage. IEEE Trans.

on Parallel and Distributed Systems, 2012,23(12):2231?2244. [doi: 10.1109/TPDS.2012.66]

[51] Yang K, Jia X. An efficient and secure dynamic auditing protocol for data storage in cloud computing. IEEE Trans. on Parallel and

Distributed Systems, 2013,24(9):1717?1726. [doi: 10.1109/TPDS.2012.278]

[52] Shacham H, Waters B. Compact proofs of retrievability. In: Advances in Cryptology—ASIACRYPT 2008. Berlin, Heidelberg:

Springer-Verlag, 2008. 90?107. [doi: 10.1007/978-3-540-89255-7_7]

956 Journal of Software软件学报 V ol.26, No.4, April 2015

[53] Bowers KD, Juels A, Oprea A. Proofs of retrievability: Theory and implementation. In: Proc. of the 2009 ACM Workshop on

Cloud Computing Security. New York: ACM Press, 2009. 43?54. [doi: 10.1145/1655008.1655015]

[54] Dodis Y, Vadhan S, Wichs D. Proofs of retrievability via hardness amplification. In: Proc. of the 6th Theory of Cryptography Conf.

(TCC). Berlin, Heidelberg: Springer-Verlag, 2009. 109?127. [doi: 10.1007/978-3-642-00457-5_8]

[55] Wang Q, Wang C, Li J, Ren K, Lou W. Enabling public verifiability and data dynamics for storage security in cloud computing. In:

Proc. of the 14th European Sym. on Research in Computer Security (ESORICS). Berlin, Heidelberg: Springer-Verlag, 2009. 355?370. [doi: 10.1007/978-3-642-04444-1_22]

[56] Wang Q, Wang C, Ren K, Lou W, Li J. Enabling public verifiability and data dynamics for storage security in cloud computing.

IEEE Trans. on Parallel and Distributed Systems, 2011,22(5):847?859. [doi: 10.1109/TPDS.2010.183]

[57] Boneh D, Gentry C, Lynn B, Shacham H. Aggregate and verifiably encrypted signatures from bilinear maps. In: Advances in

Cryptology—EUROCRYPT 2003. Berlin, Heidelberg: Springer-Verlag, 2003. 416?432. [doi: 10.1007/3-540-39200-9_26]

[58] Song DX, Wagner D, Perrig A. Practical techniques for searches on encrypted data. In: Proc. of the IEEE Symp. on Security and

Privacy (S&P). Berkeley: IEEE Computer Society, 2000. 44?55. [doi: 10.1109/SECPRI.2000.848445]

[59] Goh EJ. Secure Indexes. IACR Cryptology ePrint Archive, 2003. https://www.wendangku.net/doc/1d11732484.html,/2003/216

[60] Chang YC, Mitzenmacher M. Privacy preserving keyword searches on remote encrypted data. In: Proc. of the 3rd Int’l Conf. on

Applied Cryptography and Network Security (ACNS). Berlin, Heidelberg: Springer-Verlag, 2005. 442?455. [doi: 10.1007/ 11496137_30]

[61] Bloom B. Space/time trade-o?s in hash coding with allowable errors. Communications of the ACM, 1970,13(7):422?426. [doi: 10.

1145/362686.362692]

[62] Curtmola R, Garay J, Kamara S, Ostrovsky R. Searchable symmetric encryption: Improved definitions and efficient constructions.

In: Proc. of the 13th ACM Conf. on Computer and Communications Security (CCS). New York: ACM Press, 2006. 79?88. [doi: 10.

1145/1180405.1180417]

[63] Van Liesdonk P, Sedghi S, Doumen J, Hartel P, Jonker W. Computationally efficient searchable symmetric encryption. In: Proc. of

the Int’l Workshop on Secure Data Management (SDM). Berlin, Heidelberg: Springer-Verlag, 2010. 87?100. [doi: 10.1007/978-3- 642-15546-8_7]

[64] Kurosawa K, Ohtaki Y. UC-Secure searchable symmetric encryption. In: Proc. of the 16th Int’l Conf. on Financial Cryptography

and Data Security (FC). Berlin, Heidelberg: Springer-Verlag, 2012. 285?298. [doi: 10.1007/978-3-642-32946-3_21]

[65] Canetti R. Universally composable security: A new paradigm for cryptographic protocols. In: Proc. of the 42nd IEEE Sym. on

Foundations of Computer Science (FOCS). Las Vegas: IEEE Computer Society, 2001. 136?145. [doi: 10.1109/SFCS.2001.959888] [66] Kamara S, Papamanthou C, Roeder T. Dynamic searchable symmetric encryption. In: Proc. of the 19th ACM Conf. on Computer

and Communications Security (CCS). New York: ACM Press, 2012. 965?976. [doi: 10.1145/2382196.2382298]

[67] Kamara S, Papamanthou C. Parallel and dynamic searchable symmetric encryption. In: Proc. of the 17th Int’l Conf. on Financial

Cryptography and Data Security (FC). Berlin, Heidelberg: Springer-Verlag, 2013. 258?274. [doi: 10.1007/978-3-642-39884-1_22] [68] Chase M, Kamara S. Structured encryption and controlled disclosure. In: Advances in Cryptology—ASIACRYPT 2010. Berlin,

Heidelberg: Springer-Verlag, 2010. 577?594. [doi: 10.1007/978-3-642-17373-8_33]

[69] Golle P, Staddon J, Waters B. Secure conjunctive keyword search over encrypted data. In: Proc. of the Int’l Conf. on Applied

Cryptography and Network Security (ACNS). Berlin, Heidelberg: Springer-Verlag, 2004. 31?45. [doi: 10.1007/978-3-540-24852- 1_3]

[70] Ballard L, Kamara S, Monrose F. Achieving efficient conjunctive keyword searches over encrypted data. In: Proc. of the 7th Int’l

Conf. on Information and Communications Security (ICICS). Berlin, Heidelberg: Springer-Verlag, 2005. 414?426. [doi: 10.1007/ 11602897_35]

[71] Agrawal R, Kiernan J, Srikant R, Xu Y. Order-Preserving encryption for numeric data. In: Proc. of the ACM SIGMOD Conf. on

Management of Data (SIGMOD). New York: ACM Press, 2004. 563?574. [doi: 10.1145/1007568.1007632]

[72] Boldyreva A, Chenette N, Lee Y, O’neill A. Order-Preserving symmetric encryption. In: Advances in Cryptology—EUROCRYPT

2009. Berlin, Heidelberg: Springer-Verlag, 2009. 224?241. [doi: 10.1007/978-3-642-01001-9_13]

[73] Wang C, Cao N, Li J, Ren K, Lou W. Secure ranked keyword search over encrypted cloud data. In: Proc. of the 30th IEEE Int’l

Conf. on Distributed Computing Systems (ICDCS). Genova: IEEE Computer Society, 2010. 253?262. [doi: 10.1109/ICDCS.2010.

34]

[74] Tang Q. Privacy preserving mapping schemes supporting comparison. In: Proc. of the 2010 ACM Workshop on Cloud Computing

Security. New York: ACM Press, 2010. 53?58. [doi: 10.1145/1866835.1866846]

黄刘生等:大数据隐私保护密码技术研究综述957

[75] Boldyreva A, Chenette N, O’Neill A. Order-Preserving encryption revisited: Improved security analysis and alternative solutions.

In: Advances in Cryptology—CRYPTO 2011. Berlin, Heidelberg: Springer-Verlag, 2011. 578?595. [doi: 10.1007/978-3-642- 22792-9_33]

[76] Popa RA, Li FH, Zeldovich N. An ideal-security protocol for order-preserving encoding. In: Proc. of the 2013 IEEE Symp. on

Security and Privacy (S&P). Berkeley: IEEE Computer Society, 2013. 463?477. [doi: 10.1109/SP.2013.38]

[77] Boneh D, Di Crescenzo G, Ostrovsky R, Persiano G. Public key encryption with keyword search. In: Advances in Cryptology—

Eurocrypt 2004. Berlin, Heidelberg: Springer-Verlag, 2004. 506?522. [doi: 10.1007/978-3-540-24676-3_30]

[78] Abdalla M, Bellare M, Catalano D, Kiltz E, Kohno T, Lange T, Malone-Lee J, Neven G, Paillier P, Shi H. Searchable encryption

revisited: Consistency properties, relation to anonymous IBE, and extensions. In: Advances in Cryptology—CRYPTO 2005. Berlin, Heidelberg: Springer-Verlag, 2005. 205?222. [doi: 10.1007/11535218_13]

[79] Baek J, Safavi-Naini R, Susilo W. Public key encryption with keyword search revisited. In: Proc. of the Int’l Conf. on

Computational Science and Its Applications (ICCSA). Berlin, Heidelberg: Springer-Verlag, 2008. 1249?1259. [doi: 10.1007/978-3- 540-69839-5_96]

[80] Boneh D, Gentry C, Lynn B, Shacham H. Aggregate and verifiably encrypted signatures from bilinear maps. In: Advances in

Cryptology—EUROCRYPT 2003. Berlin, Heidelberg: Springer-Verlag, 2003. 416?432. [doi: 10.1007/3-540-39200-9_26]

[81] Rhee HS, Park JH, Susilo W, Lee DH. Improved searchable public key encryption with designated tester. In: Proc. of the 4th ACM

Int’l Symp. on Information, Computer, and Communications Security (ASIACCS). New York: ACM Press, 2009. 376?379. [doi:

10.1145/1533057.1533108]

[82] Fang L, Susilo W, Ge C, Wang J. A secure channel free public key encryption with keyword search scheme without random oracle.

In: Proc. of the Int’l Conf. Cryptology and Network Security (CANS). Berlin, Heidelberg: Springer-Verlag, 2009. 248?258. [doi:

10.1007/978-3-642-10433-6_16]

[83] Gentry C. Practical identity-based encryption without random oracles. In: Advances in Cryptology—EUROCRYPT 2006. Berlin,

Heidelberg: Springer-Verlag, 2006. 445?464. [doi: 10.1007/11761679_27]

[84] Di Crescenzo G, Saraswat V. Public key encryption with searchable keywords based on Jacobi symbols. In: Progress in Cryptology

—INDOCRYPT 2007. Berlin, Heidelberg: Springer-Verlag, 2007. 282?296. [doi: 10.1007/978-3-540-77026-8_21]

[85] Cocks C. An identity based encryption scheme based on quadratic residues. In: Proc. of the 8th IMA Int’l Conf. on Cryptography

and Coding (IMACC). Berlin, Heidelberg: Springer-Verlag, 2001. 360?363. [doi: 10.1007/3-540-45325-3_32]

[86] Bellare M, Boldyreva A, O’Neill A. Deterministic and efficiently searchable encryption. In: Advances in Cryptology—CRYPTO

2007. Berlin, Heidelberg: Springer-Verlag, 2007. 535?552. [doi: 10.1007/978-3-540-74143-5_30]

[87] Bellare M, Fischlin M, O’Neill A, Ristenpart T. Deterministic encryption: Definitional equivalences and constructions without

random oracles. In: Advances in Cryptology—RYPTO 2008. Berlin, Heidelberg: Springer-Verlag, 2008. 360?378. [doi: 10.1007/ 978-3-540-85174-5_20]

[88] Boldyreva A, Fehr S, O’Neill A. On notions of security for deterministic encryption, and efficient constructions without random

oracles. In: Advances in Cryptology—CRYPTO 2008. Berlin, Heidelberg: Springer-Verlag, 2008. 335?359. [doi: 10.1007/978-3- 540-85174-5_19]

[89] Peikert C, Waters B. Lossy trapdoor functions and their applications. In: Proc. of the 40th Annual ACM Symp. on Theory of

Computing (STOC). New York: ACM Press, 2008. 187?196. [doi: 10.1145/1374376.1374406]

[90] Fuller B, O’Neill A, Reyzin L. A unified approach to deterministic encryption: New constructions and a connection to

computational entropy. In: Proc. of the 9th Theory of Cryptography Conf (TCC). Berlin, Heidelberg: Springer-Verlag, 2012.

582?599. [doi: 10.1007/978-3-642-28914-9_33]

[91] Brakerski Z, Segev G. Better security for deterministic public-key encryption: The auxiliary-input setting. In: Advances in

Cryptology—CRYPTO 2011. Berlin, Heidelberg: Springer-Verlag, 2011. 543?560. [doi: 10.1007/978-3-642-22792-9_31]

[92] Wee H. Dual projective hashing and its applications—lossy trapdoor functions and more. In: Advances in Cryptology—

EUROCRYPT 2012. Berlin, Heidelberg: Springer-Verlag, 2012. 246?262. [doi: 10.1007/978-3-642-29011-4_16]

[93] Regev O. On lattices, learning with errors, random linear codes, and cryptography. Journal of the ACM, 2009,56(6):1?40. [doi: 10.

1145/1568318.1568324]

[94] Xie X, Xue R, Zhang R. Deterministic public key encryption and identity-based encryption from lattices in the auxiliary-input

setting. In: Proc. of the 8th Int’l Conf. on Security and Cryptography for Networks (SCN). Berlin, Heidelberg: Springer-Verlag, 2012. 1?18. [doi: 10.1007/978-3-642-32928-9_1]

[95] Mironov I, Pandey O, Reingold O, Segev G. Incremental deterministic public-key encryption. In: Advances in Cryptology—

EUROCRYPT 2012. Berlin, Heidelberg: Springer-Verlag, 2012. 628?644. [doi: 10.1007/978-3-642-29011-4_37]

958 Journal of Software软件学报 V ol.26, No.4, April 2015

[96] Cui Y, Morozov K, Kobara K, Imai H. Efficient constructions of deterministic encryption from hybrid encryption and code-based

PKE. In: Proc. of the 18th Int’l Symp. on Applied Algebra, Algebraic Algorithms and Error-Correcting Codes (AAECC). Berlin, Heidelberg: Springer-Verlag, 2009. 159?168. [doi: 10.1007/978-3-642-02181-7_17]

[97] Boneh D, Waters B. Conjunctive, subset, and range queries on encrypted data. In: Proc. of the 4th Theory of Cryptography Conf.

(TCC). Berlin, Heidelberg: Springer-Verlag, 2007. 535?554. [doi: 10.1007/978-3-540-70936-7_29]

[98] Hwang YH, Lee PJ. Public key encryption with conjunctive keyword search and its extension to a multi-user system. In: Proc. of

the Int’l Conf. on Pairing-Based Cryptography (Pairing). Berlin, Heidelberg: Springer-Verlag, 2007. 2?22. [doi: 10.1007/978-3- 540-73489-5_2]

[99] Katz J, Sahai A, Waters B. Predicate encryption supporting disjunctions, polynomial equations, and inner products. In: Advances in

Cryptology—EUROCRYPT 2008. Berlin, Heidelberg: Springer-Verlag, 2008. 146?162. [doi: 10.1007/978-3-540-78967-3_9] [100] Yao ACC. Protocols for secure computations. In: Proc. of the Annual IEEE Symp. on Foundations of Computer Science (FOCS).

Chicago: IEEE Computer Society, 1982. 160?164. [doi: 10.1109/SFCS.1982.38]

[101] Lopez-Alt A, Tromer E, Vaikuntanathan V. On-the-Fly multiparty computation on the cloud via multikey fully homomorphic encryption. In: Proc. of the 44th Annual ACM Symp. on Theory of Computing (STOC). New York: ACM Press, 2012. 1219?1234.

[doi: 10.1145/2213977.2214086]

[102] Damgard I, Pastro V, Smart N, Zakarias S. Multiparty computation from somewhat homomorphic encryption. In: Advances in Cryptology—CRYPTO 2012. Berlin, Heidelberg: Springer-Verlag, 2012. 643?662. [doi: 10.1007/978-3-642-32009-5_38]

[103] Naccache D, Stern J. A new public key cryptosystem based on higher residues. In: Proc. of the 5th ACM Conf. on Computer and Communications Security (CCS). New York: ACM Press, 1998. 59?66. [doi: 10.1145/288090.288106]

[104] Okamoto T, Uchiyama S. A new public-key cryptosystem as secure as factoring. In: Advances in Cryptology—EUROCRYPT’98.

Berlin, Heidelberg: Springer-Verlag, 1998. 308?318. [doi: 10.1007/BFb0054135]

[105] Boneh D, Goh EJ, Nissim K. Evaluating 2-DNF formulas on ciphertexts. In: Proc. of the 2nd Theory of Cryptography Conf. (TCC).

Berlin, Heidelberg: Springer-Verlag, 2005. 325?341. [doi: 10.1007/978-3-540-30576-7_18]

[106] Shor P. Polynomial-Time algorithms for prime factorization and discrete logarithms on a quantum computer. SIAM Journal on Computing, 1997,26(5):1484?1509. [doi: 10.1137/S0097539795293172]

[107] Gentry C, Halevi S. Implementing Gentry’s fully-homomorphic encryption scheme. In: Advances in Cryptology—EUROCRYPT 2011. Berlin, Heidelberg: Springer-Verlag, 2011. 129?148. [doi: 10.1007/978-3-642-20465-4_9]

[108] Scholl P, Smart NP. Improved key generation for Gentry’s fully homomorphic encryption scheme. In: Proc. of the 13th IMA Int’l Conf. on Cryptography and Coding (IMACC). Berlin, Heidelberg: Springer-Verlag, 2011. 10?22. [doi: 10.1007/978-3-642-25516- 8_2]

[109] Stehle D, Steinfeld R. Faster fully homomorphic encryption. In: Advances in Cryptology—ASIACRYPT 2010. Berlin, Heidelberg: Springer-Verlag, 2010. 377?394. [doi: 10.1007/978-3-642-17373-8_22]

[110] Smart NP, Vercauteren F. Fully homomorphic encryption with relatively small key and ciphertext sizes. In: Proc. of the Public Key Cryptography (PKC). Berlin, Heidelberg: Springer-Verlag, 2010. 420-443. [doi: 10.1007/978-3-642-13013-7_25]

[111] Gentry C, Halevi S, Smart NP. Fully homomorphic encryption with polylog overhead. In: Advances in Cryptology—EUROCRYPT 2012. Berlin, Heidelberg: Springer-Verlag, 2012. 465?482. [doi: 10.1007/978-3-642-29011-4_28]

[112] Lyubashevsky V, Peikert C, Regev O. On ideal lattices and learning with errors over rings. In: Advances in Cryptology—EUROCRYPT 2010. Berlin, Heidelberg: Springer-Verlag, 2010. 1?23. [doi: 10.1007/978-3-642-13190-5_1]

[113] Gentry C, Halevi S, Smart NP. Better bootstrapping in fully homomorphic encryption. In: Proc. of the Public Key Cryptography (PKC). Berlin, Heidelberg: Springer-Verlag, 2012. 1?16. [doi: 10.1007/978-3-642-30057-8_1]

[114] Brakerski Z, Gentry C, Halevi S. Packed ciphertexts in LWE-based homomorphic encryption. In: Proc. of the Public-Key Cryptography (PKC). Berlin, Heidelberg: Springer-Verlag, 2013. 1?13. [doi: 10.1007/978-3-642-36362-7_1]

[115] Peikert C, Vaikuntanathan V, Waters B. A framework for efficient and composable oblivious transfer. In: Advances in Cryptology —CRYPTO 2008. Berlin, Heidelberg: Springer-Verlag, 2008. 554?571. [doi: 10.1007/978-3-540-85174-5_31]

[116] Gentry C. Toward basing fully homomorphic encryption on worst-case hardness. In: Advances in Cryptolog—CRYPTO 2010.

Berlin, Heidelberg: Springer-Verlag, 2010. 116?137. [doi: 10.1007/978-3-642-14623-7_7]

[117] Brakerski Z, Vaikuntanathan V. Efficient fully homomorphic encryption from (standard) LWE. In: Proc. of the 52nd IEEE Annual Symp. on Foundations of Computer Science (FOCS). Palm Springs: IEEE Computer Society, 2011. 97?106. [doi: 10.1109/FOCS.

2011.12]

黄刘生等:大数据隐私保护密码技术研究综述959

[118] Brakerski Z, Vaikuntanathan V. Fully homomorphic encryption from ring-LWE and security for key dependent messages. In: Advances in Cryptology—CRYPTO 2011. Berlin, Heidelberg: Springer-Verlag, 2011. 505?524. [doi: 10.1007/978-3-642-22792- 9_29]

[119] Brakerski Z, Gentry C, Vaikuntanathan V. (Leveled) fully homomorphic encryption without bootstrapping. In: Proc. of the 3rd Innovations in Theoretical Computer Science Conf. New York: ACM Press, 2012. 309?325. [doi: 10.1145/2090236.2090262] [120] Brakerski Z. Fully homomorphic encryption without modulus switching from classical GapSVP. In: Advances in Cryptology—CRYPTO 2012. Berlin, Heidelberg: Springer-Verlag, 2012. 868?886. [doi: 10.1007/978-3-642-32009-5_50]

[121] Bos JW, Lauter K, Loftus J, Naehrig M. Improved security for a ring-based fully homomorphic encryption scheme. In: Proc. of the 14th IMA Int’l Conf. on Cryptography and Coding (IMACC). Berlin, Heidelberg: Springer-Verlag, 2013. 45?64. [doi: 10.1007/ 978-3-642-45239-0_4]

[122] Van Dijk M, Gentry C, Halevi S, Vaikuntanathan V. Fully homomorphic encryption over the integers. In: Advances in Cryptology —EUROCRYPT 2010. Berlin, Heidelberg: Springer-Verlag, 2010. 24?43. [doi: 10.1007/978-3-642-13190-5_2]

[123] Coron J, Mandal A, Naccache D, Tibouchi M. Fully homomorphic encryption over the integers with shorter public keys. In: Advances in Cryptology—CRYPTO 2011. Berlin, Heidelberg: Springer-Verlag, 2011. 487?504. [doi: 10.1007/978-3-642-22792- 9_28]

[124] Chen Y, Nguyen PQ. Faster algorithms for approximate common divisors: Breaking fully-homomorphic-encryption challenges over the integers. In: Advances in Cryptology—EUROCRYPT 2012. Berlin, Heidelberg: Springer-Verlag, 2012. 502?519. [doi: 10.

1007/978-3-642-29011-4_30]

[125] Coron J, Naccache D, Tibouchi M. Public key compression and modulus switching for fully homomorphic encryption over the integers. In: Advances in Cryptology—EUROCRYPT 2012. Berlin, Heidelberg: Springer-Verlag, 2012. 446?464. [doi: 10.1007/ 978-3-642-29011-4_27]

[126] Cheon JH, Coron J, Kim J, Lee MS, Lepoint T, Tibouchi M, Yun A. Batch fully homomorphic encryption over the integers. In: Advances in Cryptology—EUROCRYPT 2013. Berlin, Heidelberg: Springer-Verlag, 2013. 315?335. [doi: 10.1007/978-3-642- 38348-9_20]

附中文参考文献:

[4] 李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考.中国科学院院刊,

2012,27(6):647?657.

[5] 周水庚,李丰,陶宇飞,肖小奎.面向数据库应用的隐私保护研究综述.计算机学报,2009,32(5):847?861. [doi: 10.3724/SP.J.1016.

2009.00847]

[7] 冯登国,张敏,张妍,徐震.云计算安全研究.软件学报,2011,22(1):71?83. https://www.wendangku.net/doc/1d11732484.html,/1000-9825/3958.htm [doi: 10.3724/

SP.J.1001.2011.03958]

[32] 朱青,赵桐,王珊.面向搜索服务的数据隐私保护算法.计算机学报,2010,33(8):1315?1323. [doi: 10.3724/SP.J.1016.2010.01315]

黄刘生(1957-),男,安徽太湖人,教授,博士生导师,CCF高级会员,主要研究领域为信息安全,无线传感网络,大数据.

黄河(1983-),男,博士,副教授,主要研究领域为无线频谱资源分配,隐私保护

.

田苗苗(1987-),男,博士,主要研究领域为

密码学,大数据安全,信息安全.

大数据综述

大数据综述 大数据作为互联网、物联网、移动计算、云计算之后IT产业又一次颠覆性的技术变革,正在重新定义社会管理与国家战略决策、企业管理决策、组织业务流程、个人决策的过程和方式。随着科技和社会的发展进步加上计算机和网络技术的兴起,社交网络、物联网、云计算以及多种传感器的广泛应用,使数量庞大,种类众多,时效性强为特征的数据的不断涌现,引发了数据规模的爆炸式增长[1]。 国际数据公司(International Data Corporation,IDC)研究报告称:2011年全球被创建和被复制的数据总量超过1. 8ZB,且增长趋势遵循新摩尔定律(全球数据量大约每两年翻一番),预计2020 年将达到35ZB。与此同时,数据复杂性也急剧增长,其多样性(多源、异构、多模态、不连贯语法或语义等) 、低价值密度(大量不相关信息、知识“提纯”难度高)、实时性(数据需实时生成、存储、处理和分析)等复杂特征日益显著。预示着全球已然进入了“大数据”时代[2]。 1.大数据国外研究现状 大数据相关理论的研究 “大数据”这一术语从2008年开始在科技领域中出现,随之引起学术界的广泛研究兴趣。《Nature》与《Science》杂志分别出版专刊,从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面讨论大数据处理和应用专题。世界各国政府也高度重视大数据领域的研究和探索,并从国家战略的层面推出研究规划以应对其带来的挑战。虽然大数据研究已在全球范围内成为热点和焦点,但目前国内外大数据相关的研究仍然处于起步阶段,面向管理和决策的大数据研究与应用逐步兴起,研究理念、思路、方法和学术路线等方面的探索已经开始全面展开[3]。 大数据蕴含着巨大的价值,对社会、经济、科学研究等各个方面都具有重要的战略意义。目前,大数据已经在政府公共管理、医疗服务、零售业、制造

社交网络数据隐私保护技术综述

社交网络数据隐私保护技术综述 孙悦 (三峡大学计算机与信息学院,湖北宜昌443000) 摘要:近年来,社交网络发展非常迅速,层出不穷的社交应用给用户带来了全方位的服务模式,人们在享受便利的同时也面临着数据泄露的风险。因此社交网络的数据隐私保护具有很大的研究意义。文章对社交网络隐私保护技术发展现状进行分类概括。 关键词:社交网络;隐私保护 中图分类号:TP393文献标识码:A文章编号:1673-1131(2019)01-0180-02 0引言 随着移动互联网的飞速发展,各种移动通讯应用和社交网络也日趋流行,社交已经不仅仅局限于以交友为目的的行为了,游戏社交,购物社交等社交形式的多样化也使社交数据爆发性增长,但是数据泄露的事故也比比皆是。国外最大的社交平台Facebook曾多次被曝信息泄露,今年十月,谷歌也因信息泄露事件宣布将收紧数据分析政策。如何对用户的社交信息中的敏感信息有效的保护起来还有很大的发展空间。本文针对不同的数据类型的隐私保护技术发展来进行分类总结。 社交网络数据的隐私保护是针对原始的网络数据进行一些人为操作,如增删或修改一部分,使攻击者无法获取用户的敏感信息,避免信息泄露。只有进行处理后的数据才能对外公布,当然在保护用户的敏感信息的同时使处理后的信息仍具有一定的可用性也是衡量数据匿名的一个重要因素。1关系型数据 目前针对关系型数据的隐私保护研究已经取得了很多成果。2002年Sweeney L[1]等人首次提出k-匿名模型。k-匿名的主要思想是使集合中每一个元素都有至少其他k-1个元素与之相似,这样精准地确定某一个元素的概率都小于1/k。但是k-匿名存在对敏感信息没有进行限制的缺陷,无法抵御同质攻击以及背景知识攻击。因此Machanavajjhala[2]等人提出l-多样性模型,针对敏感信息进行隐私保护,该模型使数据集匿名组中的元素每一个敏感属性值都有其他至少l-1个与之相似。从而使敏感信息泄露的概率小于1/l。随后Ninghui Li[3]等人针对相似性攻击提出了t-Closeness模型。 此外,针对关系型数据的隐私保护也常采用聚类的方法,将聚类和其他的匿名手段结合起来,使数据能够抵御不同类型的攻击。如基于聚类的k-匿名技术[4],基于聚类的l-多样性技术[5]。 2图结构数据 相比较关系型数据,图结构数据的隐私保护研究更有难度。因为关系型数据中的记录是独立存在的,相互之间没有联系,而对于图结构数据,不仅要考虑数据本身的语义信息,还要考虑用户之间的相关性和结构信息,其次很难对攻击者已知的辅助信息进行建模。因此,关系数据的匿名化技术不能直接套用在图数据的隐私保护方案中,研究人员针对此图结构设计了有效地保护手段。 2.1基于k-匿名的保护方案 k-匿名技术已被广泛应用于匿名化关系数据中,在图数据的隐私保护中很多研究者仍然引用k-匿名的技术思想将其拓展应用于图数据中。Zhou和Pei[6]提出k-近邻匿名,该方法将所有结点具有相似邻居结点(一跳邻居结点)提取出来编码并且分在同一组内,直到每个组至少有k个结点组成。然后将每个组匿名化使得同一组内的任何结点都有至少k-1个同构邻居结点,该方法能够有效地抵御邻域攻击。Liu和Terzi[7]针对度攻击提出了k-度匿名算法,使图中每个结点都有其他至少k-1个结点与其度数相同。该方法首先构造一个k-度匿名序列,根据该序列构建匿名图,然后将匿名图与原图进行匹配调整边,使图结构的数据可用性最大化。Zou[8]等人同时考虑到领域攻击、度攻击、子图攻击等多种攻击方式,为了能够同时抵御这些攻击,他们提出k-自同构,使得图中每个结点都有其他k-1个对称的结点,此外他们提出了图分割,块对齐和边缘复制三种技术手段用于实现k-自同构。随后Cheng[9]等人提出与之有些相似的k-同构,用于抵御结构攻击,k-同构是将一个图划分并匿名成k个不相交的子图,使得所有的子图都是同构的。Yuan[10]等人从语义和结构信息的角度分析研究,针对语义和结构上设计了不同的技术来实现图结构的k-匿名。 2.2差分隐私保护方案 为了解决大多数以匿名为基础的隐私保护模型由于均需特定的知识背景而不能对隐私保护的强度进行量化分析的局限性,Dwork[11]等人提出差分隐私模型,该模型是通过对数据添加随机噪声使数据失真,从而隐藏用户的敏感信息,使攻击者无法精准识别某一条记录。随后提高发布统计数据的可用 号质量的影响在可接受范围内。该模块经过测试验证后表明该种设计能够满足信号质量要求,满足系统对于数据处理和数据存储单元的使用要求。 参考文献: [1]Serial ATA International Organization.Serial ATA Re- vision2.0[S].USA,2005.08.[2]Krishma S K,Bhat M S.Minimization of via-induced signal reflection in on-chip high speed interconnect lines.Circuits, Sys-tems,and Signal Processing,2012,31(2):689. [3]Bockelman D E,Eisenstadt W https://www.wendangku.net/doc/1d11732484.html,bined Differential and Common-Mode Scattering Parameters:Theory and Simulation[J].IEEE Trans.Microwave Theory and Techni-ques,1995,43: 1530-1539. 180

大数据隐私保护技术之脱敏技术

大数据隐私保护技术之脱敏技术 数据安全是信息安全的重要一环。当前,对数据安全的防护手段包括对称/非对称加密、数据脱敏、同态加密、访问控制、安全审计和备份恢复等。他们对数据的保护各自有各自的特点和作用,今天我主要说数据脱敏这一防护手段。 作者:佚名来源:FreeBuf|2016-11-22 09:40 收藏 分享 前言 这几天学校开始选毕业设计,选到了数据脱敏系统设计的题目,在阅读了该方面的相关论文之后,感觉对大数据安全有了不少新的理解。 介绍 随着大数据时代的到来,大数据中蕴藏的巨大价值得以挖掘,同时也带来了隐私信息保护方面的难题,即如何在实现大数据高效共享的同时,保护敏感信息不被泄露。 数据安全是信息安全的重要一环。当前,对数据安全的防护手段包括对称/非对称加密、数据脱敏、同态加密、访问控制、安全审计和备份恢复等。他们对数据的保护各自有各自的特点和作用,今天我主要说数据脱敏这一防护手段。

许多组织在他们例行拷贝敏感数据或者常规生产数据到非生产环境中时会不经意的泄露信息。例如: 1.大部分公司将生产数据拷贝到测试和开发环境中来允许系统管理员来测试升级,更新和修复。 2.在商业上保持竞争力需要新的和改进后的功能。结果是应用程序的开发者需要一个环境仿真来测试新功能从而确保已经存在的功能没有被破坏。 3.零售商将各个销售点的销售数据与市场调查员分享,从而分析顾客们的购物模式。 4.药物或者医疗组织向调查员分享病人的数据来评估诊断效果和药物疗效。 结果他们拷贝到非生产环境中的数据就变成了黑客们的目标,非常容易被窃取或者泄露,从而造成难以挽回的损失。 数据脱敏就是对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。 数据脱敏系统设计的难点 许多公司页考虑到了这种威胁并且马上着手来处理。简单的将敏感信息从非生产环境中移除看起来很容易,但是在很多方面还是很有挑战的。 首先遇到的问题就是如何识别敏感数据,敏感数据的定义是什么?有哪些依赖?应用程序是十分复杂并且完整的。知道敏感信息在哪并且知道哪些数据参考了这些敏感数据是非常困难的。 敏感信息字段的名称、敏感级别、字段类型、字段长度、赋值规范等内容在这一过程中明确,用于下面脱敏策略制定的依据。

(完整版)浅谈大数据时代的客户数据安全与隐私保护

浅谈大数据时代的客户数据安全与隐私保护如何运用好“大数据”这把双刃剑 数据如同一把双刃剑,在带来便利的同时也带来了很多安全隐患。数据对于互联网服务提供者而言具备了更多的商业价值,但数据的分析与应用将愈加复杂,也更难以管理,个人隐私无处遁形。回顾2014年,全球各地用户信息安全事件频出: 2014年3月22日“携程网”出现安全支付日志漏洞,导致大规模用户信息如姓名、身份证号、银行卡类别、银行卡卡号、银行卡CVV等信息泄露。 2014年5月13日,小米论坛用户数据库泄露,涉及约800万使用小米手机、MIUI系统等小米产品的用户,泄露的数据中带有大量用户资料,可被用来访问“小米云服务”并获取更多的私密信息,甚至可通过同步获得通信录、短信、照片、定位、锁定手机及删除信息等。 2014年12月2日乌云漏洞平台公开了一个导致“智联招聘网”86万用户简历信息泄露的漏洞。黑客可通过该漏洞获取包含用户姓名、婚姻状况、出生日期、出生日期、户籍地址、身份证号、手机号等各种详细的信息。 2014年12月25日,12306网站用户数据信息发生大规模泄露。 2014年8月苹果“iCloud服务”被黑客攻破,造成数百家喻户晓的名人私密照片被盗。 …… 这些信息安全事件让人们开始感受到“数据”原来与我们的生活接触如此紧密,数据泄露可以对个人的生活质量造成极大的威胁。大数据时代,如何构建信

息安全体系,保护用户隐私,是企业未来发展过程中必须面对的问题。安全技术水平的提高、法律法规的完善、以及企业和个人用户正视数据的运用的意识缺一不可。 数据安全技术是保护数据安全的主要措施 在大数据的存储,传输环节对数据进行各种加密技术的处理,是解决信息泄露的主要措施。对关键数据进行加密后,即使数据被泄漏,数据的盗取者也无法从中获得任何有价值的信息。尽管对于大数据的加密动作可能会牺牲一部分系统性能,但是与不加密所面临的风险相比,运算性能的损失是值得的。这实际上是企业管理和风险管理间的协调,重要的是企业要有将信息安全放在第一位的理念。 目前数据加密保护技术主要包括:数据发布匿名保护、社交网络匿名保护、数据水印等几种。此外,除了对数据进行加密处理以外,也有许多可以运用在数据的使用过程,以及发生数据泄露之后的相关保护技术。这些技术可以有效地降低数据安全事故带来的损失。 1、数据发布匿名保护技术 数据发布匿名保护技术是对大数据中结构化数据实现隐私保护的核心关键与基本技术手段。能够很好地解决静态、一次发布的数据隐私保护问题。 2、社交网络匿名保护技术 社交网络匿名保护技术包括两部分:一是用户标识与属性的匿名,在数据发布时隐藏用户的标志与属性信息;二是用户间关系的匿名,在数据发布时隐藏用户之间的关系。 3、数据水印技术

P3P网络隐私保护技术概述

P3P网络隐私保护技术概述 1.1网络隐私权 1.1.1 隐私权 自1890年美国两位法学家路易斯·布兰蒂斯和萨莫尔·华轮提出隐私权这个概念以后,隐私权已被国际社会和各国宪法、法律广泛承认,并作为公民的基本权利予以保护。 隐私权是指公民享有的私人生活安宁与私人信息依法受到保护,不被他人非法侵扰、知悉、搜集、利用和公开等的一种人格权利。 1.1.2 网络隐私权 是隐私权在网络环境下的延伸。广义上讲应该是保护网络隐私不受侵害、不被公开、不被利用的权利。其内涵包括:第一是网络隐私有不被他人了解的权利;第二是自己的信息由自己控制;第三是个人数据如有错误,拥有修改的权利。简单的说:网络隐私权,是指网络上未明确声明允许公开的所有的有关个人的信息和数据,不被非法收集、公开、侵犯和利用的权利。 1.2P3P技术概述 P3P (Platform for Privacy Preference Project)即隐私偏好设定平台,由万维网联盟在2002年4月开发完成。P3P为隐私策略提

供了一个标准的可机读格式,以及一个能使Web浏览器自动读取和处理隐私策略的协议[1]。也就是说,P3P使Web站点能够以一种标准的、机器可读的XML格式来描述它们的隐私政策,包括描述隐私信息收集、存储和使用的词汇的语法和语义。这样,互联网用户就可以根据自己的需要用APPEL (A P3P Preference Exchange Language )来对经常访问的Web站点设置隐私偏好参数,而不必耗费大量的时间去阅读又长又难以理解的Web站点隐私策略,也不必领会如何请求Web 站点以有限的方式使用用户的个人信息。基于用户设置的隐私偏好参数,用户代理可以自动或半自动的决定是否接受Web站点的隐私政策。 P3P的制定者——万维网联盟把P3P作为Web站点与它们的隐私策略相联系的标准方法。P3P可以启用可机读的隐私策略,而该隐私策略可以由Web浏览器和那些能显示符号、提示用户或采取其他适当行动的用户代理工具来自动获取[2]。其中的一些工具也可以将各个隐私策略与用户设置的隐私偏好相比较,并帮助用户决定何时与Web 站点交换个人数据。可见,P3P方案可使互联网用户更好的理解Web 站点的隐私声明,使用户在访问站点时能够知悉Web站点是如何收集和利用个人信息的。 1.3P3P指导准则 设立P3P指导准则(P3P Guiding Principles)的目的在于:表达P3F工作组设计该项技术的意图,建议人们如何更有效的使用P3P来

大数据综述

大数据相关技术综述及调研 大数据本身就是一个很抽象的概念,提及大数据很多人也只能从数据量上去感知大数据的规模,如: 百度每天大约要处理几十PB 的数据; Facebook 每天生成300 TB 以上的日志数据; 据著名咨询公司IDC 的统计,2011 年全球被创建和复制的数据总量为1.8 ZB( 1021 ) ,但仅仅是数据量并不能区分大数据与传统的海量数据的区别。在2008 年《Science》杂志出版的专刊中,大数据被定义为“代表着人类认知过程的进步,数据集的规模是无法在可容忍的时间内用目前的技术、方法和理论去获取、管理、处理的数据”。比较有影响力的Gartner 公司也给出了大数据的定义,大数据是高容量、高生成速率、种类繁多的信息价值,同时需要新的处理形式去确保判断的作出、洞察力的发现和处理的优化。这种定义不仅是数据规模大,更重要的是如何从这些动态快速生成的数据流或数据块中获取有用的具有时效性价值的信息,但是这些数据类型众多,结构化、半结构化、非结构化的数据对已有的数据处理模式带来了巨大的挑战,其中也体现了大数据在3V 基础上发展的4V定义。4V 定义即volume,variety,velocity,value,关于第4 个V的说法并不统一,国际数据公司( International Data Corporation,IDC) 认为大数据还应当具有价值性( value),大数据的价值往往呈现出稀疏性的特点; 而IBM 认为大数据必然具有真实性( veracity),这样有利于建立一种信任机制,有利于领导者的决策。百度百科对大数据的定义是: 大数据( big data) ,或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。大数据的科学家Rauser提到一个简单的定义: 大数据就是超过了任何一个计算机处理能力的庞大数据量。 以下为大数据与传统数据应用的对比:

轨迹隐私保护研究综述

第7卷第1期智能计算机与应用Vol.7 No.1 2017年2月Intelligent Computer and Applications Feb.2017 轨迹隐私保护研究综述 许志凯,张宏莉,余翔湛 (哈尔滨工业大学计算机科学与技术学院,哈尔滨150001) 摘要:随着智能终端的普及和无线通信技术的发展,基于位置的服务已渗入到人们的日常生活当中。这些服务在给人们的日常 生活带来便利的同时,也带来隐私泄漏的风险。针对轨迹数据的推理攻击不仅可分析出目标用户的家庭住址、工作地点等敏感位 置信息,甚至可推测出用户的生活习惯、健康状态、宗教信仰等隐私信息。轨迹隐私能否得到妥善保护已成为制约移动互联网发展 的瓶颈问题。本文对已有的轨迹隐私保护方法进行了分类描述,并分析已有工作的优缺点,最后指明未来的研究方向。 关键词:轨迹隐私;隐私保护;位置隐私;网络安全 中图分类号:TP391.41 文献标志码:A文章编号:2095-2163(2017)01-0125-03 Survey on trajectory privacy protection techniques X U Z h ik a i,Z H A N G H o n g li,Y U X iangzhan (School of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001, China) A bstract:With the rapid development of GPS-enabled mobile devices and wireless communication technology,location- based services (LBS)have become an essential part of daily life.However,with trajectory information,an adversary can easily infer several facets of users’lifestyles,such as living habit,health conditions,exercise hobbies,and religious belief,beyond just the locations.The potential abuse of trajectory information by unauthorized entities is evolving into a serious concern in mobile internet.The paper analyzes the existing trajectory privacy protection techniques,and puts forward the future research works. Keywords:trajectory privacy;privacy protection;location privacy;network security o引言 随着智能终端的普及和无线通讯技术的发展,基于位置 的服务(Location-based Service,LBS)已渗人到人们的日常生活当中。然而,许多基于位置的服务,如电子地图、运动 计步、移动广告,需用户实时提交自己的位置信息。这些服 务可为人们的生活带来巨大的便利。以电子地图服务提供 商Google地图、百度地图为例,这些应用不仅可为用户提供 实时交通导航,还可为用户提供实时路况信息,并规划最优 线路。然而,这些服务也带来隐私泄漏的风险,在使用这类 服务时,LBS用户需实时地将自己的位置信息提交给LBS服 务器,但这些轨迹数据往往含有丰富的时空信息。针对轨 迹数据的推理攻击不仅可得出用户在什么时间去过什么位 置,还可分析出目标用户的家庭住址、工作地点等敏感位置 信息,甚至可推测出用户的生活习惯、健康状态、宗教信仰 基金项目:国家重点基础研究发展计划(“973”计划)(2011CB302605, 2013CB329602);国家自然科学基金(61202457 , 61402149)。作者简介:许志凯(19SS-),男,博士研究生,主要研究方向:隐私保护; 张宏莉(1973-),女,博士,教授,博士生导师,主要研究方 向:网络安全、网络测量、网络计算等;余翔湛( 1973-),男, 研究员,博士生导师,主要研究方向:网络安全、网络测量、 并行计算等。 收稿日期:2016-05-26等隐私信息。因此,轨迹隐私保护受到用户及研究者的广 泛关注。 针对上述问题,本文介绍基于位置的服务,在此基础上分 别综述位置隐私保护技术的主要研究现状及存在的问题,同时,根据目前研究的不足指出未来可能的研究方向。 1基于位置的服务 图1表示了基于位置服务的一般架构,该架构包含3个 实体: 1) 为LBS用户提供定位服务的导航定位基础设施,主包括GPS卫星、无线网络基站、W IF I等。 2) 持有移动智能终端的LBS用户(本文的研究中将L 用户与移动智能终端可视为同一主体)。移动智能终端可通 过硬件(如GPS芯片)和软件(如基站信号定位、W IF I指纹定 位)技术确定该LBS用户所在地理位置,并通过无线信号与 LBS服务器进行通信。 3) 为LBS用户指定基于位置服务的服务提供商,如百地图、Google地图、大众点评等。 连续型LBS服务指的是用户需实时提交的自己的位置 信息才能获取到相应服务的LBS服务,这类服务主要包括智 能导航服务、无人驾驶汽车、基于位置的新闻(广告)推送、运 动计步及某些社交类APP(如定位附近与我兴趣相同的人)等。以智能导航服务为例,一次典型的连续型LBS服务如图 1所示。具体可做如下阐释:

大数据系统和分析技术综述 黄强

大数据系统和分析技术综述黄强 发表时间:2019-03-21T10:38:37.140Z 来源:《防护工程》2018年第34期作者:黄强1 卢荣2 [导读] 提出了不少有效的方案. 随着更丰富更先进的web 应用的出现, 一些新的爬虫机制已被用于爬取富互联网应用的数据。 1浙江大华系统工程有限公司浙江杭州 310053;2浙江泰林生物技术股份有限公司浙江杭州 310052 摘要:云计算、物联网、移动互连、社交媒体等新兴信息技术和应用模式的快速发展,促使全球数据量急剧增加,推动人类社会迈入大数据时代。一般意义上,大数据是指利用现有理论、方法、技术和工具难以在可接受的时间内完成分析计算、整体呈现高价值的海量复杂数据集合.大数据呈现出多种鲜明特征。 关键词:大数据系统;分析技术; 大数据与传统的数据相比, 除了大容量等表象特点, 大数据还具有其他独特的特点, 例如大数据通常是无结构的, 并且需要得到实时分析,因此大数据的发展需要全新的体系架构, 用于处理大规模数据的获取、传输、存储和分析。 一、大数据定义 随着大数据的流行, 大数据的定义呈现多样化的趋势, 达成共识非常困难. 本质上, 大数据不仅意味着数据的大容量, 还体现了一些区别于“海量数据” 和“非常大的数据” 的特点. 实际上, 不少文献对大数据进行了定义, 其中三种定义较为重要。一是属性定义: 国际数据中心IDC 是研究大数据及其影响的先驱, “大数据技术描述了一个技术和体系的新时代, 被设计于从大规模多样化的数据中通过高速捕获、发现和分析技术提取数据的价值”. 这个定义刻画了大数据的4 个显著特点, 即容量、多样性、速度和价值, 而“4Vs” 定义的使用也较为广泛,类似的定义注意到数据的增长是三维的, 即容量、多样性和速度的增长。二是比较定义(将大数据定义为“超过了典型数据库软件工具捕获、存储、管理和分析数据能力的数据集”。这种定义是一种主观定义, 没有描述与大数据相关的任何度量机制, 但是在定义中包含了一种演化的观点从时间和跨领域的。三是体系定义: 大数据是指数据的容量、数据的获取速度或者数据的表示限制了使用传统关系方法对数据的分析处理能力,需要使用水平扩展的机制以提高处理效率”。此外, 大数据可进一步细分为大数据科学和大数据框架,大数据科学是涵盖大数据获取、调节和评估技术的研究; 大数据框架则是在计算单元集群间解决大数据问题的分布式处理和分析的软件库及算法,一个或多个大数据框架的实例化即为大数据基础设施。 二、大数据系统和分析技术 1.流式大数据。该表现出低延迟、高吞吐、持续稳定运行和弹性可伸缩等特性,这其中离不开系统架构、数据传输、编程接口、高可用技术等关键技术的合理规划和良好设计。数据传输数据传输是指完成有向任务图到物理计算节点的部署之后,各个计算节点之间的数据传输方式。在大数据流式计算环境中,为了实现高吞吐和低延迟,需要更加系统地优化有向任务图以及有向任务图到物理计算节点的映射方式。在上游节点产生或计算完数据后,主动将数据发送到相应的下游节点,其本质是让相关数据主动寻找下游的计算节点,当下游节点报告发生故障或负载过重时,将后续数据流推送到其他相应节点.主动推送方式的优势在于数据计算的主动性和及时性,但由于数据是主动推送到下游节点,往往不会过多地考虑到下游节点的负载状态、工作状态等因素,可能会导致下游部分节点负载不够均衡;当然,主动推送方式和被动拉取方式不是完全对立的,也可以将两者进行融合,从而在一定程度上实现更好的效果. 2.编程接口。编程接口是方便用户根据流式计算的任务特征,通过有向任务图来描述任务内在逻辑和依赖关系,并编程实现任务图中各节点的处理功能.用户策略的定制、业务流程的描述和具体应用的实现,需要通过大数据流式计算系统提供的应用编程接口。良好的应用编程接口可以方便用户实现业务逻辑,可以减少用户的编程工作量,并降低用户系统功能的实现门槛。明确数据流的有向无环图,其他具体细节的实现方式用户不需要太多关心,即可满足对流式大数据的高效、实时计算;也有部分大数据流式计算系统为用户提供了类SQL 的应用编程接口,并给出了相应的组件,便于应用功能的实现;系统不仅为用户提供了类SQL 的应用编程接口来描述计算过程,也借助图形化用户视窗为用户提供了丰富的组件。大数据批量计算将数据事先存储到持久设备上,节点失效后容易实现数据重放;而大数据流式计算对数据不进行持久化存储。因此,批量计算中的高可用技术不完全适用于流式计算环境,需要根据流式计算新特征及其新的高可用要求,有针对性地研究更加轻量、高效的高可用技术和方法。大数据流式计算系统高可用是通过状态备份和故障恢复策略实现的。 3.大数据系统面临的挑战。设计和实现一个大数据系统不是一个简单的任务, 如同大数据定义描述的, 大数据超出了现有硬件和软件平台的处理能力. 新的硬件和软件平台反过来要求新的基础设施和编程模型解决大数据带来的挑战。普适的感知和计算以难以想象的速率和规模产生数据, 远超现有存储技术的发展。一个迫切的挑战是现有的存储系统难以容纳海量数据. 而数据的潜在价值和数据新鲜度有关, 因此应该设置和隐藏价值相联系的数据重要性原则, 以决定哪部分数据需要存档, 哪部分数据可以丢弃。随着在线服务和移动手机的增长, 与访问控制、个人信息分析相关的隐私和安全问题日益得到关注. 了解需要提供什么样的系统级别隐私保护机制至关重要.大数据分析技术的发展为数据解释、建模、预测和模拟带来了重大的影响。然而, 海量数据、异构数据结构和多样化的应用也带来了许多挑战,随着数据集的增长和实时处理需求的提出, 对整个数据集的分析越来越难. 一个潜在的解决方案是给出近似结果, 例如使用近似查询,近似的含义有两个方面:结果的准确度和从输出中删除的数据组。大规模计算系统的能量消耗从经济和环境的观点吸引了较大的关注。随着数据量和分析需求的增长, 数据传输、存储和处理无疑将消耗更多的能量,因此, 在大数据系统中必须提供系统级的能量控制和管理机制, 同时提供可扩展性和可访问性。大数据分析是一个交叉学科研究领域, 需要来自不同专业领域的专家协作挖掘数据中隐藏的价值。因此需要建立一个综合的大数据基础设施, 允许不同领域的科学家和工程师访问多样的数据, 并应用各自的专业知识, 协作完成分析任务。爬虫从队列中获得具有一定优先级的URL, 下载该网页, 随后解析网页中包含的所有URLs 并添加这些新的URLs 到队列中。这个过程一直重复, 直到爬虫程序停止为止.Web 爬虫是网站应用如搜索引擎和web 缓存的主要数据采集方式。数据采集过程由选择策略、重访策略、礼貌策略以及并行策略决定。选择策略决定哪个网页将被访问; 重访策略决定何时检查网页是否更新; 礼貌策略防止过度访问网站; 并行策略则用于协调分布的爬虫程序。传统的web 爬虫应用已较为成熟, 提出了不少有效的方案. 随着更丰富更先进的web 应用的出现, 一些新的爬虫机制已被用于爬取富互联网应用的数据。 大数据的一种重要形态,在商业智能、市场营销和公共服务等诸多领域有着广泛的应用前景,并已在金融银行业、互联网、物联网等场景的应用中取得了显著的成效。也使得当前诸多数据计算系统无法进一步更好地适应流式大数据在系统可伸缩性、容错、状态一致性、负载

大数据隐私保护技术之脱敏技术

大数据隐私保护技术之脱敏 技术 -标准化文件发布号:(9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII

大数据隐私保护技术之脱敏技术 数据安全是信息安全的重要一环。当前,对数据安全的防护手段包括对称/非对称加密、数据脱敏、同态加密、访问控制、安全审计和备份恢复等。他们对数据的保护各自有各自的特点和作用,今天我主要说数据脱敏这一防护手段。 作者:佚名来源:FreeBuf|2016-11-22 09:40 收藏 分享 前言 这几天学校开始选毕业设计,选到了数据脱敏系统设计的题目,在阅读了该方面的相关论文之后,感觉对大数据安全有了不少新的理解。 介绍 随着大数据时代的到来,大数据中蕴藏的巨大价值得以挖掘,同时也带来了隐私信息保护方面的难题,即如何在实现大数据高效共享的同时,保护敏感信息不被泄露。 数据安全是信息安全的重要一环。当前,对数据安全的防护手段包括对称/非对称加密、数据脱敏、同态加密、访问控制、安全审计和备份恢复等。他们对数据的保护各自有各自的特点和作用,今天我主要说数据脱敏这一防护手段。

许多组织在他们例行拷贝敏感数据或者常规生产数据到非生产环境中时会不经意的泄露信息。例如: 1.大部分公司将生产数据拷贝到测试和开发环境中来允许系统管理员来测试升级,更新和修复。 2.在商业上保持竞争力需要新的和改进后的功能。结果是应用程序的开发者需要一个环境仿真来测试新功能从而确保已经存在的功能没有被破坏。 3.零售商将各个销售点的销售数据与市场调查员分享,从而分析顾客们的购物模式。 4.药物或者医疗组织向调查员分享病人的数据来评估诊断效果和药物疗效。 结果他们拷贝到非生产环境中的数据就变成了黑客们的目标,非常容易被窃取或者泄露,从而造成难以挽回的损失。 数据脱敏就是对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。 数据脱敏系统设计的难点 许多公司页考虑到了这种威胁并且马上着手来处理。简单的将敏感信息从非生产环境中移除看起来很容易,但是在很多方面还是很有挑战的。 首先遇到的问题就是如何识别敏感数据,敏感数据的定义是什么有哪些依赖应用程序是十分复杂并且完整的。知道敏感信息在哪并且知道哪些数据参考了这些敏感数据是非常困难的。 敏感信息字段的名称、敏感级别、字段类型、字段长度、赋值规范等内容在这一过程中明确,用于下面脱敏策略制定的依据。

基于位置服务的隐私保护技术综述

基于位置服务的隐私保护技术综述 【摘要】随着基于位置服务(LBS)技术的广泛使用,个人隐私信息保护已经成为基于位置服务中的研究热点。如何在保证用户服务质量的同时,保护用户的隐私信息不被服务商和攻击者恶意使用、泄露,是LBS系统设计和构建过程中需要解决的关键问题。目前关于位置服务中隐私信息保护的研究已经取得了一定的成果,为了更深入地开展对相关课题的研究,本文总结讨论了当前隐私保护的相关技术。 【关键词】位置服务;隐私保护 0.引言 基于位置的服务(Location Based Services,LBS),是指通过移动终端和移动网络的配合,确定移动用户的实际地理位置,提供位置数据给移动应用程序,实现各种与用户位置相关的服务。如查询离自己最近的银行,周边的饭店有哪些,路线导航等。尽管LBS为移动用户提供了极大的便利,但用户隐私信息在LBS 中存在着严重的威胁。首先,服务器必须提前获取用户的位置信息才能为用户提供相应的服务,而此服务系统并不能保证服务器的可靠性,一旦服务器被攻击,用户的位置信息将被非法泄露和使用。其次,攻击者可能通过连续监测用户的查询信息挖掘出用户的其他隐私信息,包括用户身份、生活习惯等。因此,如何保证用户隐私的安全性成为基于位置服务中亟待解决的问题。针对以上问题,国内外不少研究人员提出了许多相关的方案和算法,本文将简单介绍目前较为成熟的隐私保护技术。 1.隐私保护技术 现有的隐私信息保护技术主要包括两类:一类是保护用户的身份信息,避免将请求服务的用户的身份信息提供给服务器;另一类是保护用户的真实位置信息,即服务器获取到的只是用户所在位置的模糊区域或者错误信息。主要技术包括虚拟位置技术、K-匿名技术、空间模糊技术、混合区域技术、位置共享技术、位置坐标变换技术等。 当用户请求位置服务时,虚拟位置技术为了隐藏用户的真实位置信息,将用户的真实位置信息同多个伪造的虚假、错误地址信息一起同时发送给服务器。服务器返回所有位置信息的查询结果后,用户自行判断确定正确的查询结果。此技术不需要借助第三方服务器,可在用户端自动完成虚假地址的生成,但多位置信息的伪造和发送对地址生成伪造算法、服务器的请求处理速度和空间大小提出了较高要求。 K-匿名技术通过引入第三方的匿名服务器防止用户身份信息和位置信息的暴露,当用户请求LBS服务时,先把位置信息发送给匿名服务器,匿名器将用户的位置坐标扩大为一个具有K-匿名性质的区域,即区域面积上不小于一定值,

大数据隐私保护技术之脱敏技术

大数据隐私保护技术之脱敏技术

大数据隐私保护技术之脱敏技术 数据安全是信息安全的重要一环。当前,对数据安全的防护手段包括对称/非对称加密、数据脱敏、同态加密、访问控制、安全审计和备份恢复等。他们对数据的保护各自有各自的特点和作用,今天我主要说数据脱敏这一防护手段。 作者:佚名来源:FreeBuf|2016-11-22 09:40 收藏 分享 前言 这几天学校开始选毕业设计,选到了数据脱敏系统设计的题目,在阅读了该方面的相关论文之后,感觉对大数据安全有了不少新的理解。 介绍

随着大数据时代的到来,大数据中蕴藏的巨大价值得以挖掘,同时也带来了隐私信息保护方面的难题,即如何在实现大数据高效共享的同时,保护敏感信息不被泄露。 数据安全是信息安全的重要一环。当前,对数据安全的防护手段包括对称/非对称加密、数据脱敏、同态加密、访问控制、安全审计和备份恢复等。他们对数据的保护各自有各自的特点和作用,今天我主要说数据脱敏这一防护手段。 许多组织在他们例行拷贝敏感数据或者常规生产数据到非生产环境中时会不经意的泄露信息。例如: 1.大部分公司将生产数据拷贝到测试和开发环境中来允许系统管理员来测试升级,更新和修复。 2.在商业上保持竞争力需要新的和改进后的功能。结果是应用程序的开发者需要一个环境仿真来测试新功能从而确保已经存在的功能没有被破坏。 3.零售商将各个销售点的销售数据与市场调查员分享,从而分析顾客们的购物模式。 4.药物或者医疗组织向调查员分享病人的数据来评估诊断效果和药物疗效。 结果他们拷贝到非生产环境中的数据就变成了黑客们的目标,非常容易被窃取或者泄露,从而造成难以挽回的损失。 数据脱敏就是对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。 数据脱敏系统设计的难点

大数据技术研究综述

大数据技术研究综述 摘要:大数据是继云计算、物联网之后IT 产业又一次颠覆性的技术革命。文中介绍了大数据的概念、典型的4“V”特征以及大数据的关键技术,归纳总结了大数据处理的一般流程,针对其中的关键技术,如MapReduce、GFS、Hadoop以及NoSQL等,介绍了基本的情况。最后,本文对大数据时代做了总结与展望。 关键词:大数据;数据处理技术;云计算

当人们还在津津乐道云计算、物联网等主题时,一个崭新的概念——大数据横空出世。大数据是继云计算、物联网之后IT产业又一次颠覆性的技术革命,对国家治理模式、企业决策、组织和业务流程,以及个人生活方式等都将产生巨大的影响。大数据的挖掘和应用可创造出超万亿美元的价值,将是未来IT 领域最大的市场机遇之一,其作用堪称又一次工业革命[1]。 我们身处数据的海洋,几乎所有事物都与数据有关,环境、金融、医疗……我们每天都在产生数据,打电话、发短信、进地铁站安检、进办公楼刷卡、在QQ 上聊天、上淘宝网购物……大量数据实时地影响我们的工作、生活乃至社会发展。数据成为与自然资源、人力资源同样重要的战略资源,引起了科技界和企业界的高度重视。 1大数据的概念 大数据本身就是一个很抽象的概念,提及大数据很多人也只能从数据量上去感知大数据的规模,如:百度每天大约要处理几十PB 的数据;Facebook 每天生成300 TB以上的日志数据;据著名咨询公司IDC 的统计,2011年全球被创建和复制的数据总量为1.8 ZB(1021) ,但仅仅是数据量并不能区分大数据与传统的海量数据的区别。在2008年《Science》杂志出版的专刊中,大数据被定义为“代表着人类认知过程的进步,数据集的规模是无法在可容忍的时间内用目前的技术、方法和理论去获取、管理、处理的数据”[2]。 大数据不是一种新技术,也不是一种新产品,而是一种新现象,是近来研究的一个技术热点。大数据具有以下4个特点,即4个“V”: (1) 数据体量(V olumes) 巨大。大型数据集,从TB级别,跃升到PB级别。 (2) 数据类别(Variety) 繁多。数据来自多种数据源,数据种类和格式冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。 (3) 价值(Value) 密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅一两秒钟。 (4) 处理速度(Velocity) 快。包含大量在线或实时数据分析处理的需求,1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。

关于大数据安全与隐私保护的研究

透视 Hot-Point Perspective D I G I T C W 热点 166DIGITCW 2019.03 如今,我国已正式进入大数据时代,人们的生活和工作方式 逐渐改变,在搜集与整理大数据的过程中,需要解决很多问题。比如如何保护用户隐私、怎样提高大数据的可信度以及控制大数据的访问等等。相关人员必须要正视这些问题,研究出科学合理的解决对策,提高大数据的安全性,确保各项工作有序进行。 1 大数据安全和隐私保护的必要性 现阶段,大数据安全隐私保护技术依然存在诸多漏洞和不足,有待进一步优化,关于法律方面的责任划分也没有落实到位,在使用大数据时泄露个人隐私的情况屡见不鲜。虽然很多应用平台使用的是匿名形式,但现实中此种安全隐私保护方法并不能获得理想效果。比如淘宝后台的工作人员是可以利用大数据通过订单信息和聊天记录来推断客户的兴趣爱好、年龄等个人信息的。对于人们在浏览器中留下的搜索记录而言,看似并无危害,但伴随大数据的日渐增加,同样能导致个人信息的泄露。程度轻的话会让人们频频接到骚扰信息,严重的话将会威胁到其人身安全或者财产安全。 所谓的数据泄露,通常是源于内部人员被利益所诱惑有意而为的。鉴于此,必须要对大数据安全和隐私保护予以高度关注,这对保证人们正常生活和工作有着至关重要的作用。如今,伴随大数据时代的来临,数据安全已上升到一个全新的高度,不论是个人或是企业,都要了解怎样保护个人信息安全,以数据上传与传播为突破口,研究出行之有效的手段方法[1]。 2 大数据所要解决的安全问题 2.1 保护用户隐私 在处理大数据的过程中,会对用户隐私方面造成一定威胁,其隐私保护通常是指匿名保护、关系保护以及位置保护等等。然而在大数据应用过程中,用户可采用数据剖析的形式,判断其状态与行为,从而对其隐私带来较大隐患。并且企业一般会选用匿名处理的问题,这样能把某些标识符隐藏,但此种保护并不会有效发挥作用,在分析数据时还能定位个人位置。在搜集与整理大数据时,缺少规范的监管机制,用户能轻易泄露自己隐私,但其有权利清楚这些信息是怎样被其他人知道的,选用正确的手段实施自我保护。 2.2 提高大数据的可信度 人们眼中的数据,是能为其供应真实状况的,可以充分反映事实。但若在大量的数据里,无法对信息进行筛选,则会被不良信息所引导。如今大数据所面对的问题就存在伪造信息的状况,用户在分析完数据后得到的是错误结果。其常常要面对海量信息,搜集诸多不实信息,误导用户主观判断。在信息传播过程中,会出现误差,同样会造成数据失真,并且数据不同版本区别较大,在传播时事件会伴随时间有所改变,从而降低信息的有效性。2.3 控制好大数据的访问 一方面,预设角色时难度较大,现阶段大数据使用范围越来越大,在各种部门与组织中均会使用到大数据,数据访问身份有 较大差别。因此,在访问控制的过程中,人们的权限无法被了解,无法对用户角色实施二次区分[2]。 另一方面,无法分析角色的具体权限,因为管理者所掌握的基础知识较少,因此不能精准的分析数据领域。 3 大数据安全和隐私保护的有效对策 正如上文所说,应用完大数据后,若未使用合理的保护措施,将会带来不良影响。所以,在保护大数据的过程中,隐私保护是重中之重。在保护隐私时,要使用科学合理的、有效的方法来保护大数据的搜集和整理工作。可从以下几方面入手:3.1 关于匿名保护技术 针对大数据的隐私保护而言,应用此技术能获得理想的效果,此种匿名保护方法现阶段还在不断优化中。现阶段,数据匿名的保护手段较为繁杂,大数据进攻人员不单单是从某一方面来完成数据搜集的,还能从不同方面来获得数据信息。 由于匿名保护模型是综合各个属性来设置的。所以,对其还未有清晰的界定,这便造成在匿名处置过程中,增加处理不到位的几率。所以,要不断优化这一保护技术,这样才能应用各种各样的匿名形式,进而平均分配其所蕴含的数据,提高数据匿名保护的效果和质量,同时还能避免数据进攻人员对其实施反复性的攻击,优化保护效果。所以,加大此技术的优化力度,是现阶段保护大数据的主要手段。3.2 关于网络匿名保护技术 大数据的由来基本都源自于网络,所以,加强匿名保护是十分重要的一个环节。但在网络平台中,一般都是带有视频、图片与文字的,若使用过去的数据机构来匿名保护数据,将不能满足社交互联网对匿名保护的根本需求。为确保网络数据具有安全性,在实践过程中,可采用分割点的方法来聚焦图片构造。例如,以节点分割为主的聚焦方案,针对基因算法的执行方案,都可实行匿名保护基本方案。在匿名保护社交互联网数据时,可采用关系型预测方法,因为其能精准有效的从社交互联网中衔接增长密度,提高聚集系数进而实施高效的匿名保护。所以,使用网络匿名保护技术,同样是工作中的重中之重。3.3 关于数据印发保护技术 对于此技术而言,具体是指把数据中所囊括的信息,以嵌入形式融入到印发保护技术之中,进而保证数据能更加安全的运用,而且能合理的处理数据中出现的无序性。在应用此方法时,可通过融合数据的形式将其置于另一种性质之中,此种方法能有效预防数据进攻人员损坏数据保护技术。此外,还可采用数据指纹的方法来保护数据。与此同时,为确保数据安全独立分析技术在其中也能发挥了举足轻重的作用。因此,为提高数据安全性,必须要认真对待每一个工作流程,为后期数据开发奠定良好基础。3.4 合理化建议3.4.1 加强研发 大数据的安全和隐私保护技术与用户信息能(下转第241页) 关于大数据安全与隐私保护的研究 郑袁平,贺?嘉,陈珍文,李?雁 (中国移动通信集团湖南有限公司,长沙 410000) 摘要:伴随互联网时代的飞速发展,网民数量持续增加,数据所渗透的领域也越来越多,在金融、医疗等行业中广泛使用。因此,必须要关注大数据的开发,加大其保护力度,避免人们隐私被泄露。本文首先介绍了大数据安全与隐私保护的必要性展开分析,然后分析了大数据所要解决的安全问题,最后提出合理化建议。 关键词:大数据安全;隐私保护;安全问题doi :10.3969/J.ISSN.1672-7274.2019.03.137 中图分类号:TP309 文献标示码:A 文章编码:1672-7274(2019)03-0166-02

相关文档