DataX/otswriter/doc/otswriter.md
2018-01-31 16:24:49 +08:00

7.8 KiB
Raw Blame History

OTSWriter 插件文档


1 快速介绍

OTSWriter插件实现了向OTS写入数据目前支持三种写入方式

  • PutRow对应于OTS API PutRow插入数据到指定的行如果该行不存在则新增一行若该行存在则覆盖原有行。

  • UpdateRow对应于OTS API UpdateRow更新指定行的数据如果该行不存在则新增一行若该行存在则根据请求的内容在这一行中新增、修改或者删除指定列的值。

  • DeleteRow对应于OTS API DeleteRow删除指定行的数据。

OTS是构建在阿里云飞天分布式系统之上的 NoSQL数据库服务提供海量结构化数据的存储和实时访问。OTS 以实例和表的形式组织数据,通过数据分片和负载均衡技术,实现规模上的无缝扩展。

2 实现原理

简而言之OTSWriter通过OTS官方Java SDK连接到OTS服务端并通过SDK写入OTS服务端。OTSWriter本身对于写入过程做了很多优化包括写入超时重试、异常写入重试、批量提交等Feature。

3 功能说明

3.1 配置样例

  • 配置一个写入OTS作业:
{
    "job": {
        "setting": {
        },
        "content": [
            {
                "reader": {},
                "writer": {
                    "name": "otswriter",
                    "parameter": {
                        "endpoint":"",
                        "accessId":"",
                        "accessKey":"",
                        "instanceName":"",
                        // 导出数据表的表名
                        "table":"",

                        // Writer支持不同类型之间进行相互转换
                        // 如下类型转换不支持:
                        // ================================
                        //    int    -> binary
                        //    double -> bool, binary
                        //    bool   -> binary
                        //    bytes  -> int, double, bool
                        // ================================

                        // 需要导入的PK列名区分大小写
                        // 类型支持STRINGINT
                        // 1. 支持类型转换,注意类型转换时的精度丢失
                        // 2. 顺序不要求和表的Meta一致
                        "primaryKey" : [
                            {"name":"pk1", "type":"string"},
                            {"name":"pk2", "type":"int"}
                        ],

                        // 需要导入的列名,区分大小写
                        // 类型支持STRINGINTDOUBLEBOOL和BINARY
                        "column" : [
                            {"name":"col2", "type":"INT"},
                            {"name":"col3", "type":"STRING"},
                            {"name":"col4", "type":"STRING"},
                            {"name":"col5", "type":"BINARY"},
                            {"name":"col6", "type":"DOUBLE"}
                        ],

                        // 写入OTS的方式
                        // PutRow : 等同于OTS API中PutRow操作检查条件是ignore
                        // UpdateRow : 等同于OTS API中UpdateRow操作检查条件是ignore
                        // DeleteRow: 等同于OTS API中DeleteRow操作检查条件是ignore
                        "writeMode" : "PutRow"
                    }
                }
            }
        ]
    }
}

3.2 参数说明

  • endpoint

  • accessId

    • 描述OTS的accessId

    • 必选:是

    • 默认值:无

  • accessKey

    • 描述OTS的accessKey

    • 必选:是

    • 默认值:无

  • instanceName

    • 描述OTS的实例名称实例是用户使用和管理 OTS 服务的实体,用户在开通 OTS 服务之后,需要通过管理控制台来创建实例,然后在实例内进行表的创建和管理。实例是 OTS 资源管理的基础单元OTS 对应用程序的访问控制和资源计量都在实例级别完成。

    • 必选:是

    • 默认值:无

  • table

    • 描述所选取的需要抽取的表名称这里有且只能填写一张表。在OTS不存在多表同步的需求。

    • 必选:是

    • 默认值:无

  • primaryKey

    • 描述: OTS的主键信息使用JSON的数组描述字段信息。OTS本身是NoSQL系统在OTSWriter导入数据过程中必须指定相应地字段名称。

      OTS的PrimaryKey只能支持STRINGINT两种类型因此OTSWriter本身也限定填写上述两种类型。

      DataX本身支持类型转换的因此对于源头数据非String/IntOTSWriter会进行数据类型转换。

      配置实例:

      "primaryKey" : [
                          {"name":"pk1", "type":"string"},
                          {"name":"pk2", "type":"int"}
                      ],
      
    • 必选:是

    • 默认值:无

  • column

    • 描述所配置的表中需要同步的列名集合使用JSON的数组描述字段信息。使用格式为

      	{"name":"col2", "type":"INT"},
      

      其中的name指定写入的OTS列名type指定写入的类型。OTS类型支持STRINGINTDOUBLEBOOL和BINARY几种类型 。

      写入过程不支持常量、函数或者自定义表达式。

    • 必选:是

    • 默认值:无

  • writeMode

    • 描述:写入模式,目前支持两种模式,

      • PutRow对应于OTS API PutRow插入数据到指定的行如果该行不存在则新增一行若该行存在则覆盖原有行。

      • UpdateRow对应于OTS API UpdateRow更新指定行的数据如果该行不存在则新增一行若该行存在则根据请求的内容在这一行中新增、修改或者删除指定列的值。

      • DeleteRow对应于OTS API DeleteRow删除指定行的数据。

    • 必选:是

    • 默认值:无

3.3 类型转换

目前OTSWriter支持所有OTS类型下面列出OTSWriter针对OTS类型转换列表:

DataX 内部类型 OTS 数据类型
Long Integer
Double Double
String String
Boolean Boolean
Bytes Binary
  • 注意OTS本身不支持日期型类型。应用层一般使用Long报错时间的Unix TimeStamp。

4 性能报告

4.1 环境准备

4.1.1 数据特征

2列PK10 + 815列String(10 Byte), 2两列Integer(8 Byte)算上Column Name每行大概327Byte每次BatchWriteRow写入100行数据所以当个请求的数据大小是32KB。

4.1.2 机器参数

OTS端3台前端机5台后端机

DataX运行端: 24核CPU 98GB内存

4.2 测试报告

4.2.1 测试报告

并发数 DataX CPU DATAX流量 OTS 流量 BatchWrite前端QPS BatchWriteRow前端延时
40 1027% Speed 22.13MB/s, 112640 records/s 65.8M/s 42 153ms
50 1218% Speed 24.11MB/s, 122700 records/s 73.5M/s 47 174ms
60 1355% Speed 25.31MB/s, 128854 records/s 78.1M/s 50 190ms
70 1578% Speed 26.35MB/s, 134121 records/s 80.8M/s 52 210ms
80 1771% Speed 26.55MB/s, 135161 records/s 82.7M/s 53 230ms

5 约束限制

5.1 写入幂等性

OTS写入本身是支持幂等性的也就是使用OTS SDK同一条数据写入OTS系统一次和多次请求的结果可以理解为一致的。因此对于OTSWriter多次尝试写入同一条数据与写入一条数据结果是等同的。

5.2 单任务FailOver

由于OTS写入本身是幂等性的因此可以支持单任务FailOver。即一旦写入FailDataX会重新启动相关子任务进行重试。

6 FAQ