(4)表空间管理
对数据管理员进行授权,用于在沙箱的宿主数据库上进行数据库表空间的管理,数据管理员只需要把业务信息填写到表单上,后台即可自适配SQL语法生成相应的语句来执行。所填写的业务信息主要有表空间的名称,表空间文件的路径,初始化大小(G)等。
管理员可创建一个大的表空间,给所有沙箱用户使用。并且可以对表空间的默认分配容量进行设置。当业务用户进行空间申请时,默认的按此容量分配空间额度。
管理员可以查看表空间目前的数据库用户列表信息,以及各用户目前的数据情况和空间使用情况。当察觉到异常情况时,可以先对数据库用户进行锁定操作,以待核查后再决定是否解锁。当后台监控统计发现表空间容量超过90%时,推送短消息给系统管理员,以便通知其进行扩容操作。
(5)数据同步
支持新建抽样任务,配置项包含数据源、输出到调试环境、数据置换策略等。
支持预览抽样结果(文件数据和数据表均支持)。
支持批量运行、终止、上送、删除抽样任务。
支持上送样本数据到调试环境。
(6)数据置换
支持结构化、非结构化数据的数据置换。
支持对诸如姓名、身份证号、手机号、邮箱、通讯地址等个人敏感信息实体设置不同的置换算法和算法参数。
对结构化数据支持至少三种不同置换算法,如敏感数据替换、敏感数据遮掩、敏感数据擦除。
对非结构化数据支持马赛克遮罩算法,支持针对不同实体配置选择遮罩颜色。
支持批量删除、批量启用、批量禁用数据置换策略。
支持脱敏后结果输出到指定数据库或sftp/ftp文件。
(7)数据访问控制
支持基于深度学习的NLP技术对个人隐私信息进行识别,包括人名、机构名、地址等。
支持基于深度学习的OCR技术对图片中的文字信息进行识别。
具备识别结果上下文语境的动态感知能力,进而对识别精度进行优化调节。
支持批量删除、批量启用、批量禁用敏感数据发现规则。
支持对任意敏感数据发现规则的自定义设置,基于传统正则表达式和字典两种模式设置匹配规则。
支持通过DLP技术与规则匹配实现敏感数据自动发现,支持系统自动发现与手工调整相结合。
支持对用户、样本数据进行数据访问控制。
支持批量删除、批量启用、批量禁用策略。
(8)机器学习工作台
支持交互式Notebook编程,提供基于python编程语言的代码编程和调试环境,支持pandas、 pytorch、sklearn等框架。
支持数据分析师导出zip格式数据文件或模型文件。
支持查看组件运行错误日志,查看全量数据运行日志。
实验过程中支持对数据融合分析场景的隐私保护,支持在调试环境对样本数据进行分析后,使用全量数据进行数据分析。
(9)数据可视化处理
支持查看样本数据概述、说明等信息。
支持设置样本数据公开/私有属性。
支持样本数据预览。
支持可视化拖拽式数据分析方式,包含数据源、数据拆分、自定义Python程序等数据分析组件。
支持可视化数据转换操作,如过滤、替换、提取、拆分、函数、可见字段选择等,支持质量分析图、数据分布图、详细数据等不同维度展示数据。
(10)数据操作留痕审计
支持对所有的用户数据操作进行了全生命周期的日志记录,实现所有数据操作可追溯、可审计、可定责。同时,针对用户行为的日志记录进行风险分析与识别,严格保障数据安全。
支持导出系统登录日志和系统操作日志的详细记录。
支持对操作用户在数据安全开放平台运行环境内的所有操作行为进行记录和审计。
(11)结果申报审核
支持对数据分析得到的最终结果的流出严格把控,基于智能反隐私隐藏技术的深度内容审核,智能识别敏感数据,结合基于白名单机制的人工审核方式,双管齐下,防止攻击者从流出结果中夹带敏感数据,充分保障数据安全。
数据中台规范编制
技术管理规范
提供《数据模型管理规范》,《数据共享交换平台开发规范》,《基础库开发规范》,《专题库开发规范》。