一、Starburst On Aliyun Catalogs配置Yaml文件样例

  1. catalogs:
  2. tpch: |-
  3. connector.name=tpch
  4. tpch.splits-per-node=4
  5. order1: |-
  6. connector.name=mysql
  7. connection-url=jdbc:mysql://your_mysql_serve:port
  8. connection-user=user1
  9. connection-password=password1
  10. sale1: |-
  11. connector.name=hive
  12. hive.metastore.uri=thrift://ip:port
  13. hive.config.resources=/usr/file/starburst_catalogs/sale1/core-site.xml
  14. sale2: |-
  15. connector.name=delta-lake
  16. hive.metastore.uri=thrift://ip:port
  17. hive.config.resources=/usr/file/starburst_catalogs/sale2/core-site.xml

二、Starburst Enterprise支持各种Connectors数据源链接,详见官网

三、Starburst On Aliyun支持阿里云各种典型产品,诸如RDS,EMR,Databricks Insights, Kafka等

  • RDS starburst节点能访问RDS数据库(RDS开放安全组白名单)
    • mysql connector
    • postrgresql connector
    • sqlserver connector
  • EMR 仅限于非DLF元数据存储集群

    • hive connector
      • emr集群安全组为starburst服务ip段开放端口
        • 9083(HiveMetaStore服务端口)
        • 9000(hive内部表存储时,namenode访问端口)
        • 50010(datanode端口)
      • 访问emr的hdfs的数据,需要对域名进行解析,添加Private Zone
      • 访问oss的数据,需要在connector配置文件中添加core-site.xml,里面配置相应的ak和endpoint
        • catalogs配置文件中connector片段
        • core-site.xml配置文件(文件放在oss://yourBucketName/starburst_catalogs/emr1目录)
          1. emr1: |-
          2. connector.name=hive
          3. hive.metastore.uri=thrift://emr-hive的ip:9083
          4. hive.config.resources=/usr/file/starburst_catalogs/emr1/core-site.xml
          1. <?xml version="1.0"?>
          2. <configuration>
          3. <property>
          4. <name>fs.jfs.cache.oss.accessKeyId</name>
          5. <value>my accessKeyId</value>
          6. </property>
          7. <property>
          8. <name>fs.jfs.cache.oss.accessKeySecret</name>
          9. <value>my accessKeySecret</value>
          10. </property>
          11. <property>
          12. <name>fs.jfs.cache.oss.endpoint</name>
          13. <value>oss-cn-hangzhou-internal.aliyuncs.com</value>
          14. </property>
          15. </configuration>
  • DDI 阿里云Databricks产品, 仅限于非DLF元数据存储集群

    • delta-lake connector
      • starburst节点具有公网访问能力(可采用接入NAT方案)
      • ddi对starburst公网ip开放9083端口
      • 访问oss的数据,需要在connector配置文件中添加core-site.xml,里面配置相应的ak和endpoint
        • catalogs配置文件中connector片段
        • core-site.xml配置文件(文件放在oss://yourBucketName/starburst_catalogs/delta1目录)
          1. delta1: |-
          2. connector.name=delta-lake
          3. hive.metastore.uri=thrift://ddi-hive的ip:9083
          4. hive.config.resources=/usr/file/starburst_catalogs/delta1/core-site.xml
          1. <?xml version="1.0"?>
          2. <configuration>
          3. <property>
          4. <name>fs.jfs.cache.oss.accessKeyId</name>
          5. <value>my accessKeyId</value>
          6. </property>
          7. <property>
          8. <name>fs.jfs.cache.oss.accessKeySecret</name>
          9. <value>my accessKeySecret</value>
          10. </property>
          11. <property>
          12. <name>fs.jfs.cache.oss.endpoint</name>
          13. <value>oss-cn-hangzhou-internal.aliyuncs.com</value>
          14. </property>
          15. </configuration>
  • CDP 阿里云Cloudera产品

    • hive connector

      1. cdp1: |-
      2. connector.name=hive
      3. hive.metastore=thrift-cdp7
      4. hive.metastore.uri=thrift://cdp-master:9083
    • starburst节点能访问cdp集群节点(网络+端口安全组白名单)

    • 目前阿里云Cloudera Data Platform采用的是短域名,需要添加Private Zone解析
  • Kafak 阿里云Kafka产品
    • kafak connector
    • starburst节点能访问流式数据库(rds安全组白名单)
  • Mongdb 阿里云Mongdb产品
    • mongodb connector
    • starburst节点能访问nosql数据库(rds安全组白名单)
    • 对schema进行用户认证
  • Redis 阿里云Redis产品
    • redis connector
    • starburst节点能访问redis数据库(rds安全组白名单)
    • redis将实例抽象为表,默认无字段,提供内置字段,设置redis.hide-internal-columns=false