flinkSQL - Table API 和flinkSQL入门 - 《大数据知识库笔记》

flink sql是什么
table api 的基础结构
表的概念
table api 创建表
表跟环境的关系
table api 创建表并输出到文件
table api 从kafka读取数据输出到kafka
更新模式 (重点)
支持append 的官方插件 api
支持更新数据的 api
动态数据输出到mysql
将表转换成流
动态表
动态表的流式处理过程
时间特性 (重要)
FAQ 常见问题

flink sql是什么

Flink针对流处理和批处理，为我们提供了多种操作API。从图中可知，越上层的API抽象程度越高，门槛越低（大家都熟悉SQL），但也丧失了灵活性。

Table API 是一系列集成在Java或Scala语言中的查询API，它允许通过一些关系运算符操作进行很直观的操作。

FlinkSQL 则是基于Apache Calcite实现了标准的SQL，可以通过编写SQL的方式进行Flink数据处理。

总结：flinksql 就是封装底层实现细节。在上层统一的实现。方便扩展。实现调用sql实现很多底层的操作。table api flink sql 底层原理架构是一样的。在使用的时候是两套api table api 是java scala 的查询api 以直观的方式组合关系关系运算符的查询
[

](https://blog.csdn.net/gexiaoyizhimei/article/details/120183213)

table api 的基础结构

表的概念

跟mysql的概念是一样的。一组字段的集合，catalog 目录，下面又是数据库名。下面是对象名(表名)
如果api不指定catalog 和database 默认为default

表可以是常规的(实际存在的表)，虚拟的(视图的概念) 在flink中数据都在内存中。
表可以连接外部数据源，文件，数据库表，消息队列，从流转换来的。这种表可以称为常规表，

视图一般是在flink 做数据转换中临时创建的表，可以从现有的表创建，通常是table api 或者sql的查询的结果集。

table api 创建表

//connect默认提供了es kafka 文件，可以自定义实现

 //创建环境
 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
 StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env);
         // 2. 表的创建：连接外部系统，读取数据
        // 2.1 读取文件
        String filePath = "D:\\FlinkTutorial\\src\\main\\resources\\sensor.txt";
        tableEnv.connect( new FileSystem().path(filePath))
                .withFormat( new Csv())
                .withSchema( new Schema()
                .field("id", DataTypes.STRING())
                        .field("timestamp", DataTypes.BIGINT())
                        .field("temp", DataTypes.DOUBLE())
                )
                .createTemporaryTable("inputTable");
      Table inputTable = tableEnv.from("inputTable");
//        inputTable.printSchema();
//        tableEnv.toAppendStream(inputTable, Row.class).print();
        // 3. 查询转换
        // 3.1 Table API
        // 简单转换
        Table resultTable = inputTable.select("id, temp")
                .filter("id === 'sensor_6'");
        // 聚合统计
        Table aggTable = inputTable.groupBy("id")
                .select("id, id.count as count, temp.avg as avgTemp");
        // 3.2 SQL
        tableEnv.sqlQuery("select id, temp from inputTable where id = 'senosr_6'");
        Table sqlAggTable = tableEnv.sqlQuery("select id, count(id) as cnt, avg(temp) as avgTemp from inputTable group by id");
        // 打印输出 追加流 需要源源不断的数据。否则报错
        tableEnv.toAppendStream(resultTable, Row.class).print("result");
        //缩进流 使用追加流会报错，因为sql查询已经限制了条数 具体区别 https://www.cnblogs.com/wynjauu/articles/11654838.html
        tableEnv.toRetractStream(aggTable, Row.class).print("agg");
        tableEnv.toRetractStream(sqlAggTable, Row.class).print("sqlagg");
        env.execute();

表跟环境的关系

table api 创建表并输出到文件

// 1. 创建环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(1);
StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env);
// 2. 表的创建：连接外部系统，读取数据
// 读取文件
String filePath = "D:\\迅雷下载\\4.代码\\FlinkTutorial\\src\\main\\resources\\sensor.txt";
tableEnv.connect( new FileSystem().path(filePath))
    .withFormat( new Csv())
    .withSchema( new Schema()
                .field("id", DataTypes.STRING())
                .field("timestamp", DataTypes.BIGINT())
                .field("temp", DataTypes.DOUBLE())
               )
    .createTemporaryTable("inputTable");
Table inputTable = tableEnv.from("inputTable");
//        inputTable.printSchema();
//        tableEnv.toAppendStream(inputTable, Row.class).print();
// 3. 查询转换
// 3.1 Table API
// 简单转换
Table resultTable = inputTable.select("id, temp")
    .filter("id === 'sensor_6'");
// 聚合统计
Table aggTable = inputTable.groupBy("id")
    .select("id, id.count as count, temp.avg as avgTemp");
// 3.2 SQL
tableEnv.sqlQuery("select id, temp from inputTable where id = 'senosr_6'");
Table sqlAggTable = tableEnv.sqlQuery("select id, count(id) as cnt, avg(temp) as avgTemp from inputTable group by id");
// 4. 输出到文件
// 连接外部文件注册输出表
String outputPath = "D:\\Projects\\BigData\\FlinkTutorial\\src\\main\\resources\\out.txt";
tableEnv.connect( new FileSystem().path(outputPath))
    .withFormat( new Csv())
    .withSchema( new Schema()
                .field("id", DataTypes.STRING())
                //                        .field("cnt", DataTypes.BIGINT())
                .field("temperature", DataTypes.DOUBLE())
               )
    .createTemporaryTable("outputTable");
resultTable.insertInto("outputTable");
//        aggTable.insertInto("outputTable");
        env.execute();

table api 从kafka读取数据输出到kafka

 // 1. 创建环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);
        StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env);
        // 2. 连接Kafka，读取数据
        tableEnv.connect(new Kafka()
                .version("0.11")
                .topic("sensor")
                .property("zookeeper.connect", "localhost:2181")
                .property("bootstrap.servers", "localhost:9092")
        )
                .withFormat(new Csv())
                .withSchema(new Schema()
                        .field("id", DataTypes.STRING())
                        .field("timestamp", DataTypes.BIGINT())
                        .field("temp", DataTypes.DOUBLE())
                )
                .createTemporaryTable("inputTable");
        // 3. 查询转换
        // 简单转换
        Table sensorTable = tableEnv.from("inputTable");
        Table resultTable = sensorTable.select("id, temp")
                .filter("id === 'sensor_6'");
        // 聚合统计
        Table aggTable = sensorTable.groupBy("id")
                .select("id, id.count as count, temp.avg as avgTemp");
        // 4. 建立kafka连接，输出到不同的topic下
        tableEnv.connect(new Kafka()
                .version("0.11")
                .topic("sinktest")
                .property("zookeeper.connect", "localhost:2181")
                .property("bootstrap.servers", "localhost:9092")
        )
                .withFormat(new Csv())
                .withSchema(new Schema()
                        .field("id", DataTypes.STRING())
//                        .field("timestamp", DataTypes.BIGINT())
                        .field("temp", DataTypes.DOUBLE())
                )
                .createTemporaryTable("outputTable");
        resultTable.insertInto("outputTable");
        env.execute();