mirror of
https://github.com/alibaba/DataX.git
synced 2025-05-02 04:59:51 +08:00
Merge 5b320a7d39
into 0824b45c5e
This commit is contained in:
commit
4ee2e3f699
@ -1,6 +1,6 @@
|
|||||||
# 阿里云开源离线同步工具DataX3.0介绍
|
# 阿里云开源离线同步工具DataX3.0介绍
|
||||||
|
|
||||||
## 一. DataX3.0概览
|
## 一. DataX 3.0概览
|
||||||
|
|
||||||
DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
|
DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
|
||||||
|
|
||||||
@ -24,11 +24,11 @@
|
|||||||
|
|
||||||
DataX本身作为离线数据同步框架,采用Framework + plugin架构构建。将数据源读取和写入抽象成为Reader/Writer插件,纳入到整个同步框架中。
|
DataX本身作为离线数据同步框架,采用Framework + plugin架构构建。将数据源读取和写入抽象成为Reader/Writer插件,纳入到整个同步框架中。
|
||||||
|
|
||||||
- Reader:Reader为数据采集模块,负责采集数据源的数据,将数据发送给Framework。
|
- Reader:Reader为数据采集模块,负责采集数据源的数据,将数据发送给Framework。
|
||||||
- Writer: Writer为数据写入模块,负责不断向Framework取数据,并将数据写入到目的端。
|
- Writer: Writer为数据写入模块,负责不断向Framework取数据,并将数据写入到目的端。
|
||||||
- Framework:Framework用于连接reader和writer,作为两者的数据传输通道,并处理缓冲,流控,并发,数据转换等核心技术问题。
|
- Framework:Framework用于连接reader和writer,作为两者的数据传输通道,并处理缓冲,流控,并发,数据转换等核心技术问题。
|
||||||
|
|
||||||
## 三. DataX3.0插件体系
|
## 三、DataX3.0插件体系
|
||||||
|
|
||||||
经过几年积累,DataX目前已经有了比较全面的插件体系,主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入。DataX目前支持数据如下:
|
经过几年积累,DataX目前已经有了比较全面的插件体系,主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入。DataX目前支持数据如下:
|
||||||
|
|
||||||
@ -59,7 +59,7 @@ DataX本身作为离线数据同步框架,采用Framework + plugin架构构建
|
|||||||
|
|
||||||
DataX Framework提供了简单的接口与插件交互,提供简单的插件接入机制,只需要任意加上一种插件,就能无缝对接其他数据源。详情请看:[DataX数据源指南](https://github.com/alibaba/DataX/wiki/DataX-all-data-channels)
|
DataX Framework提供了简单的接口与插件交互,提供简单的插件接入机制,只需要任意加上一种插件,就能无缝对接其他数据源。详情请看:[DataX数据源指南](https://github.com/alibaba/DataX/wiki/DataX-all-data-channels)
|
||||||
|
|
||||||
## 四、DataX3.0核心架构
|
## 四、DataX3.0核心架构
|
||||||
|
|
||||||
DataX 3.0 开源版本支持单机多线程模式完成同步作业运行,本小节按一个DataX作业生命周期的时序图,从整体架构设计非常简要说明DataX各个模块相互关系。
|
DataX 3.0 开源版本支持单机多线程模式完成同步作业运行,本小节按一个DataX作业生命周期的时序图,从整体架构设计非常简要说明DataX各个模块相互关系。
|
||||||
|
|
||||||
@ -89,7 +89,7 @@ DataX 3.0 开源版本支持单机多线程模式完成同步作业运行,本
|
|||||||
|
|
||||||
DataX旧版对于部分数据类型(比如时间戳)传输一直存在毫秒阶段等数据失真情况,新版本DataX3.0已经做到支持所有的强数据类型,每一种插件都有自己的数据类型转换策略,让数据可以完整无损的传输到目的端。
|
DataX旧版对于部分数据类型(比如时间戳)传输一直存在毫秒阶段等数据失真情况,新版本DataX3.0已经做到支持所有的强数据类型,每一种插件都有自己的数据类型转换策略,让数据可以完整无损的传输到目的端。
|
||||||
|
|
||||||
- 提供作业全链路的流量、数据量运行时监控
|
- 提供作业全链路的流量、数据量运行时监控
|
||||||
|
|
||||||
DataX3.0运行过程中可以将作业本身状态、数据流量、数据速度、执行进度等信息进行全面的展示,让用户可以实时了解作业状态。并可在作业执行过程中智能判断源端和目的端的速度对比情况,给予用户更多性能排查信息。
|
DataX3.0运行过程中可以将作业本身状态、数据流量、数据速度、执行进度等信息进行全面的展示,让用户可以实时了解作业状态。并可在作业执行过程中智能判断源端和目的端的速度对比情况,给予用户更多性能排查信息。
|
||||||
|
|
||||||
|
Loading…
Reference in New Issue
Block a user