This commit is contained in:
chestnufang 2025-04-10 16:20:40 +08:00 committed by GitHub
commit 4ee2e3f699
No known key found for this signature in database
GPG Key ID: B5690EEEBB952194

View File

@ -1,6 +1,6 @@
# 阿里云开源离线同步工具DataX3.0介绍
## 一. DataX3.0概览
## 一. DataX 3.0概览
DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
@ -24,11 +24,11 @@
DataX本身作为离线数据同步框架采用Framework + plugin架构构建。将数据源读取和写入抽象成为Reader/Writer插件纳入到整个同步框架中。
- ReaderReader为数据采集模块负责采集数据源的数据将数据发送给Framework。
- ReaderReader为数据采集模块负责采集数据源的数据将数据发送给Framework。
- Writer Writer为数据写入模块负责不断向Framework取数据并将数据写入到目的端。
- FrameworkFramework用于连接reader和writer作为两者的数据传输通道并处理缓冲流控并发数据转换等核心技术问题。
## 三. DataX3.0插件体系
## 三DataX3.0插件体系
经过几年积累DataX目前已经有了比较全面的插件体系主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入。DataX目前支持数据如下
@ -59,7 +59,7 @@ DataX本身作为离线数据同步框架采用Framework + plugin架构构建
DataX Framework提供了简单的接口与插件交互提供简单的插件接入机制只需要任意加上一种插件就能无缝对接其他数据源。详情请看[DataX数据源指南](https://github.com/alibaba/DataX/wiki/DataX-all-data-channels)
## 四、DataX3.0核心架构
## 四、DataX3.0核心架构
DataX 3.0 开源版本支持单机多线程模式完成同步作业运行本小节按一个DataX作业生命周期的时序图从整体架构设计非常简要说明DataX各个模块相互关系。
@ -89,7 +89,7 @@ DataX 3.0 开源版本支持单机多线程模式完成同步作业运行,本
DataX旧版对于部分数据类型(比如时间戳)传输一直存在毫秒阶段等数据失真情况新版本DataX3.0已经做到支持所有的强数据类型,每一种插件都有自己的数据类型转换策略,让数据可以完整无损的传输到目的端。
- 提供作业全链路的流量、数据量运行时监控
- 提供作业全链路的流量、数据量运行时监控
DataX3.0运行过程中可以将作业本身状态、数据流量、数据速度、执行进度等信息进行全面的展示,让用户可以实时了解作业状态。并可在作业执行过程中智能判断源端和目的端的速度对比情况,给予用户更多性能排查信息。