上两篇“数据安全出境系列”文章中,我们介绍了《数据安全出境系列——数据安全控制能力》《数据安全出境系列——数据识别能力》。今天我们继续介绍第三个能力:对使用、存储、流转、分享中不合规数据的阻断能力。   

在数据出境情境中,哪些数据是需要被严格管控的呢?

至少包含以下几种: 涉密数据、 征信数据、 国家核心数据、 地图数据、 重要数据、 网约车业务相关数据和信息、 人口健康数据、 健康医疗大数据、 人类遗传资源信息、 个人金融信息。
 

要对某一类型数据做阻断,我们首先需要对数据的类型进行识别。为了便于理解,我们以涉密数据来举例说明。

  • 哪些数据属于涉密数据?

  • 满足什么样条件的数据会被认定为涉密数据?

  • 涉密数据“长”什么样子?

单一的识别技术和策略对以上的问题是无法判断的,需要通过涉密数据模型来识别。比如:一个人的身份证号出现时,无法认定为涉密数据,需要结合上下文内容进行分析;或者单一数据不能被定义为涉密数据,多份同类数据结合起来,就可能被认定为涉密数据。我们要通过关键字识别、字典权重识别、正则表达式识别、文件属性识别、图像内容识别、自然语言分析处理、标签识别、机器学习识别和指纹识别等多种技术,提炼出涉密类型数据的共同点,并将这些共同点按照算法生成类别特征,用于后续对检测到的数据进行识别。


当数据向境外传输时,我们的系统识别到传输的数据中某个文档的特征与涉密数据模型相似度达到设定的阈值,比如相似度在90%,系统会认为这是一个涉密数据,会对数据的传输进行阻断。一旦系统判断为某个文档为涉密数据,这个文档在任何一个地方出现都会被认定为是涉密数据,无论是在终端、网络、应用还是云端。