(一)定义

批量工作流任务调度器

主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的key:value对的方式,通过配置中的dependencies 来设置依赖关系

(二)特点

兼容任何版本的hadoop
易于使用的Web用户界面
简单的工作流的上传
方便设置任务之间的关系
调度工作流
模块化和可插拔的插件机制
认证/授权(权限的工作)
能够杀死并重新启动工作流
有关失败和成功的电子邮件提醒
为什么需要Azkaban

(三)Azkaban任务挂了怎么办

通常Azkaban凌晨30分左右的时候开始执行,如果Azkaban一旦挂掉的话,有发邮件和打电话的功能.普通的任务挂掉的话可以发送邮件,重要的任务挂掉的话就直接打电话.
然后起来打开电脑,vpn远程连接功能电脑,重新执行该任务就可以了.

什么样的任务分为重要任务?

yarn任务队列分等级,新产品,新市场,重要活动(比如说618),如果赶上上面这些特殊的任务的话,可以先把别的任务暂停掉,保证上面的任务完成,这叫降级使用,保证优先任务执行.

(四)Azkaban每天跑多少个指标

正常情况下在企业开发都是100到200个离线指标,普通日常没有活动时候大概是100多个,搞活动的时候一般可能就会200多个.
什么时候搞活动? 一般节日的时候.

一般都是针对节日去搞一些活动,然后根据活动去分析一些特定的指标.

新产品上线可能会需要根据新产品进行指标分析
新市场的开拓的时候也需要统计分析.