(4)数据门户
支持将自助分析、智能报告、驾驶舱集合组织起来,提供外部链接的功能。
大数据基础平台
(1)分布式存储
提供线性扩展、高可靠、开放等能力。提供多租户安全可靠的分布式对象存储能力,支持适配国产芯片处理器和国产操作系统体系。
(2)离线计算引擎
基于分布式离线计算框架,支持将MR/Spark/Tez等复杂任务,通过结构化语言对海量结构化数据进行统一处理分析汇总的高性能分析引擎,适配国产芯片处理器和国产操作系统体系。
(3)实时计算引擎
基于批流一体框架和分布式复杂流式处理引擎,支持对无边界和有边界的数据流,提供低延迟、可扩展、高容错的有状态的实时流式复杂计算,适配国产芯片处理器和国产操作系统体系。
(4)全文检索
支持PB级海量结构化和非结构化文本数据存储能力,提供故障探测、自动报警及集群高可用能力,支持高性能、高并发、低延时的查询能力,适配国产芯片处理器和国产操作系统体系。
大数据集成中心
具备数据集成、数据共享交换(前置交换)、万物互联感知、免协调业务管道采集等功能。
平台提供异构数据源的字段类型映射关系的自定义配置,便于在自动建表时精确依据源端表所在数据源的类型,来生成目标端表的建表语句,无需人工编写和调整建表语句。
任务配置满足复杂场景。支持向导、脚本、整库迁移三种模式,支持单次全量、周期全量、周期增量三种数据集成调度模式,全方位覆盖各类数据集成场景。
向导模式采用图形化方式配置数据源、数据表和字段映射关系,可以进行多表集成并自定义同步范围,并支持在目标端在无目标表的情况下使用自动建表配置规则进行自动建表功能完成任务配置,无需用户提前在目标端手动建表。
系统提供定时任务,对集成任务中配置的源端表进行扫描,通过配置信息和源端表实时信息进行比对,及时发现源端表结构变化,并判断是否影响任务运行,同时,对影响任务运行的变化提供修复功能,在线修复任务配置信息,有效减少任务报错次数。
任务运行完成后,通过比对源端数据量和目标端数据量,列出产生脏数据的任务清单,支持查看对应的脏数据明细信息以及造成脏数据的原因,并提供补数据功能,用户只需点击补数据,就可实现一步完成数据修补,保证数据量的完整性。
实时监控集成任务的运行情况,可对任务进行冻结、解冻、重跑、终止等操作以及一体化的可视化界面,任务属性、运行日志、运行代码、结果预览同步展示,用户只需通过简单的切换就可清楚查看任务的相关信息。
大数据开发平台
(1)离线计算
支持对大数据处理过程进行可视化管理与控制。屏蔽底层复杂的分布式计算引擎,构建基于Web的数据开发平台。面向数据开发人员可提供可视化数据开发IDE,实现数据开发、数据同步、任务调度、任务运维一体化作业。
应具备良好的兼容性,兼容主流开源或商业化大数据平台;支持离线同步、Shell、类SQL、MR等多种节点类型,通过节点之间的相互依赖,对复杂的数据进行计算处理;支持分钟、小时、天、周和月多种调度周期配置,支持根据时间、依赖关系,进行任务触发的机制。
支持通过项目空间来实现组织、人员、数据源、计算资源的安全隔离。项目空间初始化时支持为单个项目空间分配独立的调度资源池来实现计算资源的精准调控和分配。项目配置时支持对项目的基本属性、成员、资源访问权限进行维护以及对数据源、计算引擎进行查看。其中基础配置应支持对项目空间中是否启用“周期调度”、“能下载select结果”、“允许编辑任务”、“允许运行任务”、“允许脚本建表”、“启用数据同步”等进行控制,同时对查询结果的记录条数及上传文件大小限制进行预设置。资源访问权限则是对当前项目人员能够访问其他项目空间数据表资源进行限制,在保证数据安全隔离的同时保证了项目空间间正常的数据协同。
平台提供任务管理、脚本管理、资源管理、函数管理、表查阅五种功能,实现海量数据的离线计算和数据“下云”,满足数据开发人员不同编码习惯不同业务场景需要。