本知识库旨在以阿里的Dataworks+实时计算Flink版为基础,跟Apache Flink相结合,从一个使用者的角度入手,从零开始探索。

认识实时计算Flink版

阿里云实时计算Flink版是一套基于Apache Flink构建的⼀站式实时大数据分析平台,提供端到端亚秒级实时数据分析能力,并通过标准SQL降低业务开发门槛,助力企业向实时化、智能化大数据计算升级转型。

实时计算Flink产品形态

image.png
Flink全托管:如果您的公司或团队希望专注于业务开发,不希望花费太多精力在集群运维上,推荐您使用Flink全托管产品。
Flink半托管/EMR:如果您的公司或团队希望在业务开发的基础上,对整个集群资源有完全的掌控力,并且熟悉Yarn或阿里云E-MapReduce服务,推荐您使用Flink半托管/EMR产品

怎么跟DataWorks联动

在DataWorks中有StreamStudio。StreamStudio是基于阿里云实时计算服务构建的开发平台,需要首先开通实时计算服务
有几点值得注意的是:

  1. StreamStudio分为共享模式和独享模式,两者在功能上是有区别的出于安全考虑,共享模式不支持UDF,独享模式支持UDF。
  2. 需要创建实时项目并与StreamStudio进行关联。

您可以登录实时计算控制台创建实时计算项目。
创建完成后,请进入DataWorks控制台工作空间列表页面,绑定实时计算项目至已有的工作空间中。
您也可以直接创建新的工作空间并绑定实时计算项目。绑定项目后,即可进入Stream Studio

结论:理论上我们只要打通StreamStudio和实时计算Flink服务就能在dataworks进行实时项目的开发

如何开通我们需要的实时计算服务

https://help.aliyun.com/document_detail/169593.html?spm=a2c4g.11186623.6.570.3e077543NMXH6B

如何绑定实时计算项目

https://help.aliyun.com/document_detail/108292.htm?spm=a2c4g.11186623.2.19.1702af81sNPDBS#task-2371380

如何在StreamStudio开发实时项目

Stream Studio支持可视化DAG和SQL两种开发模式。使用DAG开发模式无需编写代码,以拖拽组件的方式即可完成任务开发,简单快捷。同时DAG工作流可以与SQL互相转换,您可以自由选择。
Stream Studio支持Flink SQL。