基于大数据基础平台,在信息服务基础平台系统数据支撑服务和“509 工程”共享交换服务的基础上,结合信息化建设基础能力,发展“训、教、管” 专业化能力,构建相关领域大数据工程。
大数据支撑平台软件包括多源异构海量数据的数据集成开发、存储、处理、访问、安全及多租户和运维管理等六大模块 :
1. 数据集成开发:提供对传统关系数据库、互联网网页等多数据源多数据格式的数据采集功能,主要提供etl、程序管理、sql开发、任务调度、流程编排等功能。
2. 数据存储:提供分布式文件系统(hdfs)、nosql数据库(hbase)、大数据仓库(hive),实现对非结构化 数据、半结构化数据、结构化数据的海量存储。
3. 数据处理:提供对海量数据的计算功能,主要提供hadoop mapreduce和spark两种大数据计算引擎和spark streaming流式数据计算框架以及计算任务的定义和调度功能。
4. 数据访问:提供bigsql访问引擎,支持标准sql的数据访问、支持tpc-ds 99种查询语句和多数据源统一访问。
5. 安全及多租户管理:提供资源配额管理、资源授权管理、用户、认证、授权、审计及加密等功能。实现数据和资 源的访问控制等功能特性。
6. 运维管理:主要包括自动化部署、服务管理、健康、告警、日志;管理及iaas视频等功能模块。实现集群和服务 的自动化安装部署等功能特性。