其它概念 - 离线数仓中Kafka数据量问题 - 《消息中间件》

每秒多少条日志
每天多少M日志
什么是简单数据量最大,能达到多少,
给Kafka磁盘预留多大空间
设置多少个分区

        条/s   m/s<br />            日活 100万  1人1天100条 一天多少条日志=100万*100条=1亿 <br />            1亿/(24*3600s) = 1150条/s<br />            1条日志1k （0.5k-2k）<br />            1m/s<br />            什么时间点数量最大，能达到多少？<br />            晚上7-10点  =》  20m/s -30m/s   不要超过50m/s<br />            100g<br />

每秒多少条日志

以网站日活100万计算,如果日活是100万的话,假如说一人一天一百条,相当于一天是100万乘以100条,那么一天就是1亿条日志.
一天是24小时3600秒,
这样差不多 1亿除以(24小时3600秒), 算下来差不多一秒是1150多条日志. 这就是数据量

每天多少M日志

一条日志1K左右, 刚开始的时候可能公司埋点的数据少,就0.5K,后面可能字段多了,就1K了, 再后面可能字段又多了. 就1.5K了.

一人一天100条的话,可能随着业务扩大,可能变成150条,然后又变成200条.

算下来的话,一秒钟1150条日志,乘以1K,那么差不多1秒钟1M的数据. .

什么是简单数据量最大,能达到多少,

你想想你什么时候买东西.

一般人大多都是晚上七八点买东西,因为白天在上班. 基本电商基本就是晚上七八点就是高峰期.

差不多能达到20M ~30M一秒.

给Kafka磁盘预留多大空间

Kafka一天差不多是100G的数据,
100G*2个副本. 那么就是300G ,然后Kafka还需要保存三天,那么就是 900G ,然后还得需要预留磁盘量百分之30 ,防止变多.

设置多少个分区

3-10个

先设置1个分区,然后再进行压测,测试生产者的峰值速率,和消费者的峰值速率.

然后你有个预期的吞吐量,

然后吞吐量除以最小的的速率,结果就是分区数,如果你需要并发性能更高,那么就多设置几个分区.

分区数=t /min(tp,tc)
tp = 20m/s tc=50m/s t =100m/s
分区数=100 /20 =5个
分区数影响了并发度