@曹彬 曹工,这边没有ssd,请有时间nifi看看通过Kafka的手动ack方案加三个repository不落盘如何配置和实现?
1)https://blog.csdn.net/limingcai168/article/details/103283475 ENABLE_AUTO_COMMIT_CONFIG=false MANUAL_IMMEDIATE, ack.acknowledge()
Kafka解决重启的问题,为了提高效率,
2)https://nifi.apache.org/docs/nifi-docs/html/administration-guide.html#system_properties 通过 Volatile库包
To use this implementation, set nifi.flowfile.repository.implementation to org.apache.nifi.controller.repository.VolatileFlowFileRepository The Content Repository implementation. The default value is org.apache.nifi.controller.repository.FileSystemRepository and should only be changed with caution. To store flowfile content in memory instead of on disk (at the risk of data loss in the event of power/machine failure), set this property to org.apache.nifi.controller.repository.VolatileContentRepository.The Provenance Repository implementation. The default value is org.apache.nifi.provenance.WriteAheadProvenanceRepository. Three additional repositories are available as well. To store provenance events in memory instead of on disk (in which case all events will be lost on restart, and events will be evicted in a first-in-first-out order), set this property to org.apache.nifi.provenance.VolatileProvenanceRepository.
https://www.cnblogs.com/ronnieyuan/p/11935871.html
1 nar中定位attribute,同时基于attribute调用方法解决问题,如base64
2 输入可以定义多种processor
MiNiFi和NiFi有什么区别?
MiNiFi是用于从远程位置的传感器和设备上收集数据子集的代理。目的是帮助进行数据的“第一英里收集”,并获取尽可能接近其来源的数据。
在NiFi中,流文件是描述流过事件、对象和数据的方式。虽然您可以在NiFi中为每个Flow File执行任何转换,但您可能不想使用NiFi将Flow File基于公共列连接在一起或执行某些类型的窗口聚合。在这种情况下,Cloudera建议使用其他解决方案。
那么有什么建议呢?
- 在流使用情况下,最好的选择是使用NiFi中的记录处理器将记录发送到一个或多个Kafka主题。然后,基于我们对Eventador的收购,您可以让Flink使用Continuous SQL对数据进行所有想要的处理(加入流或执行窗口操作)。
- 在批处理用例中,您会将NiFi视为ELT而不是ETL(E =提取,T =转换,L =加载)。NiFi会捕获各种数据集,对每个数据集进行所需的转换(模式验证、格式转换、数据清理等),然后将数据集发送到由Hive支持的数据仓库中。将数据发送到那里后,NiFi可能会触发Hive查询以执行联合操作。
设定多长时间调度,
内容就是实际的消息体存储
源头就是操作历史日志,源头就是每一步数据是怎么产生的
https://blog.csdn.net/qq_19397397/article/details/80007806
