简介

TDCH为“Teradata Connector for Hadoop ”的简称。Teradata连接器为Hadoop MapReduce应用程序,它支持高性能并行Teradata系统之间的双向数据移动和各种Hadoop生态系统组件。该引擎允许在Teradata和HDFS之间进行可伸缩的并行数据传输。TDCH可以函数作为一个最终用户工具的命令行界面,也可以包含在Oozie工作流,也可以与其他终端用户工具通过集成Java API。
image.png

运行架构

image.png

用法和准则

对于HDFS数据集和Teradata数据集之间的任何同步配方,TDCH引擎将可用(两个方向)。可以使用以下分发方法:

  • Teradata-> HDFS同步
    • split.by.hash(散列分割)
    • split.by.value(按值分割)
    • split.by.partition(按分区分割)
    • split.by.amp(按AMP分割)
  • HDFS-> Teradata同步

    • batch.insert(批处理插入)
    • internal.fastload(FastLoad)

      局限性

  • 不支持分区数据集。

  • HDFS数据集仅支持CSV格式。
  • 不支持SQL“查询”数据集。仅支持SQL“表”数据集。
  • 不考虑在HDFS连接级别定义的属性。因此,通常无法与云存储(S3,GCS,WASB,ADLS)同步-因为这些连接通常需要凭据的属性。