Merge pull request #1 from alibaba/master

merge alibaba/DataX
This commit is contained in:
huolibo 2021-10-19 16:00:46 +08:00 committed by GitHub
commit 34063f7fb2
No known key found for this signature in database
GPG Key ID: 4AEE18F83AFDEB23
7 changed files with 41 additions and 38 deletions

View File

@ -3,7 +3,7 @@
# DataX
DataX 是阿里云 [DataWorks数据集成](https://www.aliyun.com/product/bigdata/ide) 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS 等各种异构数据源之间高效的数据同步功能。
DataX 是阿里云 [DataWorks数据集成](https://www.aliyun.com/product/bigdata/ide) 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS 等各种异构数据源之间高效的数据同步功能。
# DataX 商业版本
阿里云DataWorks数据集成是DataX团队在阿里云上的商业化产品致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动能力以及繁杂业务背景下的数据同步解决方案。目前已经支持云上近3000家客户单日同步数据超过3万亿条。DataWorks数据集成目前支持离线50+种数据源可以进行整库迁移、批量上云、增量同步、分库分表等各类同步解决方案。2020年更新实时同步能力2020年更新实时同步能力支持10+种数据源的读写任意组合。提供MySQLOracle等多种数据源到阿里云MaxComputeHologres等大数据引擎的一键全增量同步解决方案。
@ -39,6 +39,7 @@ DataX目前已经有了比较全面的插件体系主流的RDBMS数据库、N
| ------------ | ---------- | :-------: | :-------: |:-------: |
| RDBMS 关系型数据库 | MySQL | √ | √ |[读](https://github.com/alibaba/DataX/blob/master/mysqlreader/doc/mysqlreader.md) 、[写](https://github.com/alibaba/DataX/blob/master/mysqlwriter/doc/mysqlwriter.md)|
|             | Oracle     |        |        |[读](https://github.com/alibaba/DataX/blob/master/oraclereader/doc/oraclereader.md) 、[写](https://github.com/alibaba/DataX/blob/master/oraclewriter/doc/oraclewriter.md)|
|             | OceanBase  |        |        |[读](https://open.oceanbase.com/docs/community/oceanbase-database/V3.1.0/use-datax-to-full-migration-data-to-oceanbase) 、[写](https://open.oceanbase.com/docs/community/oceanbase-database/V3.1.0/use-datax-to-full-migration-data-to-oceanbase)|
| | SQLServer | √ | √ |[读](https://github.com/alibaba/DataX/blob/master/sqlserverreader/doc/sqlserverreader.md) 、[写](https://github.com/alibaba/DataX/blob/master/sqlserverwriter/doc/sqlserverwriter.md)|
| | PostgreSQL | √ | √ |[读](https://github.com/alibaba/DataX/blob/master/postgresqlreader/doc/postgresqlreader.md) 、[写](https://github.com/alibaba/DataX/blob/master/postgresqlwriter/doc/postgresqlwriter.md)|
| | DRDS | √ | √ |[读](https://github.com/alibaba/DataX/blob/master/drdsreader/doc/drdsreader.md) 、[写](https://github.com/alibaba/DataX/blob/master/drdswriter/doc/drdswriter.md)|

View File

@ -50,7 +50,7 @@ DRDS的插件目前DataX只适配了Mysql引擎的场景DRDS对于DataX而言
// 数据库连接密码
"password": "root",
"column": [
"id""name"
"id","name"
],
"connection": [
{

View File

@ -203,7 +203,8 @@ HbaseWriter 插件实现了从向Hbase中写取数据。在底层实现上Hba
* 描述要写入的hbase字段。index指定该列对应reader端column的索引从0开始name指定hbase表中的列必须为 列族:列名 的格式type指定写入数据类型用于转换HBase byte[]。配置格式如下:
```
"column": [
"column": [
{
"index":1,
"name": "cf1:q1",
@ -227,7 +228,7 @@ HbaseWriter 插件实现了从向Hbase中写取数据。在底层实现上Hba
* 描述要写入的hbase的rowkey列。index指定该列对应reader端column的索引从0开始若为常量index为1type指定写入数据类型用于转换HBase byte[]value配置常量常作为多个字段的拼接符。hbasewriter会将rowkeyColumn中所有列按照配置顺序进行拼接作为写入hbase的rowkey不能全为常量。配置格式如下
```
"rowkeyColumn": [
"rowkeyColumn": [
{
"index":0,
"type":"string"
@ -250,19 +251,19 @@ HbaseWriter 插件实现了从向Hbase中写取数据。在底层实现上Hba
* 描述指定写入hbase的时间戳。支持当前时间、指定时间列指定时间三者选一。若不配置表示用当前时间。index指定对应reader端column的索引从0开始需保证能转换为long,若是Date类型会尝试用yyyy-MM-dd HH:mm:ss和yyyy-MM-dd HH:mm:ss SSS去解析若为指定时间index为1value指定时间的值,long值。配置格式如下
```
"versionColumn":{
"versionColumn":{
"index":1
}
}
```
或者
```
"versionColumn":{
"versionColumn":{
"index":1,
"value":123456789
}
}
```

View File

@ -36,6 +36,7 @@ DataX本身作为离线数据同步框架采用Framework + plugin架构构建
| ------------ | ---------- | :-------: | :-------: |:-------: |
| RDBMS 关系型数据库 | MySQL | √ | √ |[读](https://github.com/alibaba/DataX/blob/master/mysqlreader/doc/mysqlreader.md) 、[写](https://github.com/alibaba/DataX/blob/master/mysqlwriter/doc/mysqlwriter.md)|
|             | Oracle     |        |        |[读](https://github.com/alibaba/DataX/blob/master/oraclereader/doc/oraclereader.md) 、[写](https://github.com/alibaba/DataX/blob/master/oraclewriter/doc/oraclewriter.md)|
|             | OceanBase  |        |        |[读](https://open.oceanbase.com/docs/community/oceanbase-database/V3.1.0/use-datax-to-full-migration-data-to-oceanbase) 、[写](https://open.oceanbase.com/docs/community/oceanbase-database/V3.1.0/use-datax-to-full-migration-data-to-oceanbase)|
| | SQLServer | √ | √ |[读](https://github.com/alibaba/DataX/blob/master/sqlserverreader/doc/sqlserverreader.md) 、[写](https://github.com/alibaba/DataX/blob/master/sqlserverwriter/doc/sqlserverwriter.md)|
| | PostgreSQL | √ | √ |[读](https://github.com/alibaba/DataX/blob/master/postgresqlreader/doc/postgresqlreader.md) 、[写](https://github.com/alibaba/DataX/blob/master/postgresqlwriter/doc/postgresqlwriter.md)|
| | DRDS | √ | √ |[读](https://github.com/alibaba/DataX/blob/master/drdsreader/doc/drdsreader.md) 、[写](https://github.com/alibaba/DataX/blob/master/drdswriter/doc/drdswriter.md)|

View File

@ -8,7 +8,7 @@ MongoDBReader 插件利用 MongoDB 的java客户端MongoClient进行MongoDB的
MongoDBReader通过Datax框架从MongoDB并行的读取数据通过主控的JOB程序按照指定的规则对MongoDB中的数据进行分片并行读取然后将MongoDB支持的类型通过逐一判断转换成Datax支持的类型。
#### 3 功能说明
* 该示例从ODPS读一份数据到MongoDB
* 该示例从MongoDB读一份数据到ODPS
{
"job": {

View File

@ -139,7 +139,7 @@ MongoDBWriter通过Datax框架获取Reader生成的数据然后将Datax支持
* splitter特殊分隔符当且仅当要处理的字符串要用分隔符分隔为字符数组时才使用这个参数通过这个参数指定的分隔符将字符串分隔存储到MongoDB的数组中。【选填】
* upsertInfo指定了传输数据时更新的信息。【选填】
* isUpsert当设置为true时表示针对相同的upsertKey做更新操作。【选填】
* upsertKeyupsertKey指定了行记录的业务主键。用来做更新时使用。【选填】
* upsertKeyupsertKey指定了行记录的业务主键。用来做更新时使用。【选填】
#### 5 类型转换

View File

@ -48,7 +48,7 @@ PostgresqlReader插件实现了从PostgreSQL读取数据。在底层实现上
// 数据库连接密码
"password": "xx",
"column": [
"id""name"
"id","name"
],
//切分主键
"splitPk": "id",