(一)定义
批量工作流任务调度器
主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的key:value对的方式,通过配置中的dependencies 来设置依赖关系
(二)特点
兼容任何版本的hadoop
易于使用的Web用户界面
简单的工作流的上传
方便设置任务之间的关系
调度工作流
模块化和可插拔的插件机制
认证/授权(权限的工作)
能够杀死并重新启动工作流
有关失败和成功的电子邮件提醒
为什么需要Azkaban
(三)Azkaban任务挂了怎么办
通常Azkaban凌晨30分左右的时候开始执行,如果Azkaban一旦挂掉的话,有发邮件和打电话的功能.普通的任务挂掉的话可以发送邮件,重要的任务挂掉的话就直接打电话.
然后起来打开电脑,vpn远程连接功能电脑,重新执行该任务就可以了.
什么样的任务分为重要任务?
yarn任务队列分等级,新产品,新市场,重要活动(比如说618),如果赶上上面这些特殊的任务的话,可以先把别的任务暂停掉,保证上面的任务完成,这叫降级使用,保证优先任务执行.
(四)Azkaban每天跑多少个指标
正常情况下在企业开发都是100到200个离线指标,普通日常没有活动时候大概是100多个,搞活动的时候一般可能就会200多个.
什么时候搞活动? 一般节日的时候.
一般都是针对节日去搞一些活动,然后根据活动去分析一些特定的指标.
新产品上线可能会需要根据新产品进行指标分析
新市场的开拓的时候也需要统计分析.