- 一、Starburst On Aliyun Catalogs配置Yaml文件样例
- 官网">二、Starburst Enterprise支持各种Connectors数据源链接,详见官网
- 三、Starburst On Aliyun支持阿里云各种典型产品,诸如RDS,EMR,Databricks Insights, Kafka等
一、Starburst On Aliyun Catalogs配置Yaml文件样例
catalogs:tpch: |-connector.name=tpchtpch.splits-per-node=4order1: |-connector.name=mysqlconnection-url=jdbc:mysql://your_mysql_serve:portconnection-user=user1connection-password=password1sale1: |-connector.name=hivehive.metastore.uri=thrift://ip:porthive.config.resources=/usr/file/starburst_catalogs/sale1/core-site.xmlsale2: |-connector.name=delta-lakehive.metastore.uri=thrift://ip:porthive.config.resources=/usr/file/starburst_catalogs/sale2/core-site.xml
二、Starburst Enterprise支持各种Connectors数据源链接,详见官网
三、Starburst On Aliyun支持阿里云各种典型产品,诸如RDS,EMR,Databricks Insights, Kafka等
- RDS starburst节点能访问RDS数据库(RDS开放安全组白名单)
- mysql connector
- postrgresql connector
- sqlserver connector
EMR 仅限于非DLF元数据存储集群
- hive connector
- emr集群安全组为starburst服务ip段开放端口
- 9083(HiveMetaStore服务端口)
- 9000(hive内部表存储时,namenode访问端口)
- 50010(datanode端口)
- 访问emr的hdfs的数据,需要对域名进行解析,添加Private Zone
- 访问oss的数据,需要在connector配置文件中添加core-site.xml,里面配置相应的ak和endpoint
- catalogs配置文件中connector片段
- core-site.xml配置文件(文件放在oss://yourBucketName/starburst_catalogs/emr1目录)
emr1: |-connector.name=hivehive.metastore.uri=thrift://emr-hive的ip:9083hive.config.resources=/usr/file/starburst_catalogs/emr1/core-site.xml
<?xml version="1.0"?><configuration><property><name>fs.jfs.cache.oss.accessKeyId</name><value>my accessKeyId</value></property><property><name>fs.jfs.cache.oss.accessKeySecret</name><value>my accessKeySecret</value></property><property><name>fs.jfs.cache.oss.endpoint</name><value>oss-cn-hangzhou-internal.aliyuncs.com</value></property></configuration>
- emr集群安全组为starburst服务ip段开放端口
- hive connector
DDI 阿里云Databricks产品, 仅限于非DLF元数据存储集群
- delta-lake connector
- starburst节点具有公网访问能力(可采用接入NAT方案)
- ddi对starburst公网ip开放9083端口
- 访问oss的数据,需要在connector配置文件中添加core-site.xml,里面配置相应的ak和endpoint
- catalogs配置文件中connector片段
- core-site.xml配置文件(文件放在oss://yourBucketName/starburst_catalogs/delta1目录)
delta1: |-connector.name=delta-lakehive.metastore.uri=thrift://ddi-hive的ip:9083hive.config.resources=/usr/file/starburst_catalogs/delta1/core-site.xml
<?xml version="1.0"?><configuration><property><name>fs.jfs.cache.oss.accessKeyId</name><value>my accessKeyId</value></property><property><name>fs.jfs.cache.oss.accessKeySecret</name><value>my accessKeySecret</value></property><property><name>fs.jfs.cache.oss.endpoint</name><value>oss-cn-hangzhou-internal.aliyuncs.com</value></property></configuration>
- delta-lake connector
CDP 阿里云Cloudera产品
hive connector
cdp1: |-connector.name=hivehive.metastore=thrift-cdp7hive.metastore.uri=thrift://cdp-master:9083
starburst节点能访问cdp集群节点(网络+端口安全组白名单)
- 目前阿里云Cloudera Data Platform采用的是短域名,需要添加Private Zone解析
- Kafak 阿里云Kafka产品
- kafak connector
- starburst节点能访问流式数据库(rds安全组白名单)
- Mongdb 阿里云Mongdb产品
- mongodb connector
- starburst节点能访问nosql数据库(rds安全组白名单)
- 对schema进行用户认证
- Redis 阿里云Redis产品
- redis connector
- starburst节点能访问redis数据库(rds安全组白名单)
- redis将实例抽象为表,默认无字段,提供内置字段,设置redis.hide-internal-columns=false
