阿里云开源离线同步工具 DataX 3.0 介绍

DataX 是阿里云开源的异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
一、DataX 3.0 概览
设计理念
为了解决异构数据源同步问题,DataX 将复杂的网状同步链路变成了星型数据链路,DataX 作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源时,只需要将此数据源对接到 DataX,便能跟已有的数据源做到无缝数据同步。
使用现状
DataX 在阿里巴巴集团内被广泛使用,承担了所有大数据的离线同步业务,并已持续稳定运行了6年之久。目前每天完成同步8万+道作业,每日传输数据量超过300TB。
此前已经开源 DataX 1.0 版本,此次介绍为阿里云开源全新版本 DataX 3.0,有了更多更强大的功能和更好的使用体验。
GitHub 主页地址:https://github.com/alibaba/DataX
二、DataX 3.0 框架设计
DataX 本身作为离线数据同步框架,采用 Framework + plugin 架构构建。将数据源读取和写入抽象成为 Reader/Writer 插件,纳入到整个同步框架中。
- Reader:数据采集模块,负责采集数据源的数据,将数据发送给 Framework
- Writer:数据写入模块,负责不断向 Framework 取数据,并将数据写入到目的端
- Framework:连接 Reader 和 Writer,作为两者的数据传输通道,并处理缓冲、流控、并发、数据转换等核心技术问题
三、DataX 3.0 插件体系
经过几年积累,DataX 目前已经有了比较全面的插件体系,主流的 RDBMS 数据库、NoSQL、大数据计算系统都已经接入。
支持的数据源类型
| 类型 | 数据源 | Reader(读) | Writer(写) | 文档 |
|---|---|---|---|---|
| RDBMS 关系型数据库 | MySQL | √ | √ | 读 、写 |
| Oracle | √ | √ | 读 、写 | |
| OceanBase | √ | √ | 读 、写 | |
| SQLServer | √ | √ | 读 、写 | |
| PostgreSQL | √ | √ | 读 、写 | |
| DRDS | √ | √ | 读 、写 | |
| 达梦 | √ | √ | 读 、写 | |
| 通用RDBMS | √ | √ | 读 、写 | |
| 阿里云数仓数据存储 | ODPS | √ | √ | 读 、写 |
| ADS | √ | 写 | ||
| OSS | √ | √ | 读 、写 | |
| OCS | √ | √ | 读 、写 | |
| NoSQL数据存储 | OTS | √ | √ | 读 、写 |
| Hbase0.94 | √ | √ | 读 、写 | |
| Hbase1.1 | √ | √ | 读 、写 | |
| MongoDB | √ | √ | 读 、写 | |
| Hive | √ | √ | 读 、写 | |
| 无结构化数据存储 | TxtFile | √ | √ | 读 、写 |
| FTP | √ | √ | 读 、写 | |
| HDFS | √ | √ | 读 、写 | |
| Elasticsearch | √ | 写 |
DataX Framework 提供了简单的接口与插件交互,提供简单的插件接入机制,只需要任意加上一种插件,就能无缝对接其他数据源。
四、DataX 3.0 核心架构
DataX 3.0 开源版本支持单机多线程模式完成同步作业运行。按一个 DataX 作业生命周期的时序图,从整体架构设计说明 DataX 各个模块相互关系。
核心模块介绍
- Job:DataX 完成单个数据同步的作业,是单个作业的中枢管理节点,承担数据清理、子任务切分、TaskGroup 管理等功能
- Task:DataXJob 启动后,根据不同的源端切分策略,将 Job 切分成多个小的 Task(子任务),是 DataX 作业的最小单元
- TaskGroup:根据配置的并发数据量,将拆分的 Task 重新组合,每一个 TaskGroup 负责以一定的并发运行完毕分配好的所有 Task
- 执行流程:每个 Task 由 TaskGroup 负责启动,固定启动
Reader→Channel→Writer的线程完成任务同步工作 - 作业监控:Job 监控并等待多个 TaskGroup 模块任务完成,等待所有 TaskGroup 任务完成后 Job 成功退出
调度流程示例
用户提交了一个 DataX 作业,并且配置了 20 个并发,目的是将一个 100 张分表的 mysql 数据同步到 odps 里面:
- DataXJob 根据分库分表切分成了 100 个 Task
- 根据 20 个并发,DataX 计算共需要分配 4 个 TaskGroup
- 4 个 TaskGroup 平分切分好的 100 个 Task,每一个 TaskGroup 负责以 5 个并发共计运行 25 个 Task
五、DataX 3.0 六大核心优势
1. 可靠的数据质量监控
- 完美解决数据传输个别类型失真问题DataX 3.0 已经做到支持所有的强数据类型,每一种插件都有自己的数据类型转换策略,让数据可以完整无损的传输到目的端
- 提供作业全链路的流量、数据量运行时监控运行过程中可以将作业本身状态、数据流量、数据速度、执行进度等信息进行全面展示,让用户可以实时了解作业状态
- 提供脏数据探测
可以实现脏数据精确过滤、识别、采集、展示,为用户提供多种的脏数据处理模式
2. 丰富的数据转换功能
DataX 除了提供数据快照搬迁功能之外,还提供了丰富数据转换功能,让数据在传输过程中可以轻松完成数据脱敏、补全、过滤等数据转换功能,另外还提供了自动 groovy 函数,让用户自定义转换函数
3. 精准的速度控制
提供了包括通道(并发)、记录流、字节流三种流控模式,可以随意控制作业速度:
"speed": {
"channel": 5,
"byte": 1048576,
"record": 10000
}
4. 强劲的同步性能
每一种读插件都有一种或多种切分策略,都能将作业合理切分成多个 Task 并行执行,单机多线程执行模型可以让 DataX 速度随并发成线性增长
5. 健壮的容错机制
提供线程级别、进程级别(暂时未开放)、作业级别多层次局部/全局的重试,保证用户的作业稳定运行:
- 线程内部重试:核心插件都经过团队的全盘 review,不同的网络交互方式都有不同的重试策略
- 线程级别重试:可以实现 TaskFailover,针对于中间失败的 Task,DataX 框架可以做到整个 Task 级别的重新调度
6. 极简的使用体验
- 易用:下载即可用,支持 linux 和 windows,只需要短短几步骤就可以完成数据的传输
- 详细:在运行日志中打印了大量信息,包括传输速度、Reader/Writer 性能、进程 CPU、JVM 和 GC 情况等
评论