整体链路

自然语言查询 -> 实时分析服务 -> 数据缓存计算服务 -> 自然语言查询服务

问题记录

上述时序图目前针对于问句缓存可用，但问句缓存就存在不能附加参数的限制，我们这次是希望缓存maincondition的形式提高不同变化形式的问句缓存命中，因此需要在上述流程之上做进一步改动，改动需考虑情况：

问题：

实现过程中遇到的问题：

如果缓存过程DataValueReuslt 结果，只能通过解析结果JSON 与此对应，不然保证不了condition 与 DataValueResult 的匹配关系
只有这样才能有一个更新的途径，在9111新开一个HTTP专门返回用JSONcondition 请求的DataValueResult结果，用来分布式更新
这个更新的结果可能数据量级比较大，诊股问句起步在几百k，其中除4千只股票外，包含condition 列表列表信息，请求信息，表信息，chunkInfoList,columnInfos，detailInfos等
如果使用这个更新结果在9111替换maincondition时 string 再转DataValueResult 要花费 10到40ms时间本机测试，这恐怕是个问题
改动：中台Kafka不具备广播通知的能力，因此从Flink分析的结果，9111先从mysql 主动拉去更新配置，这个后期依然没有广播能力的话，可以再改成定时从redis拉去效率会更好些
因为使用condition作为热点key，其中像时间就会存在变化，这样会降低热key的聚集度

本次可以看到引入了Nacos 做配置的动态推送，提高topN配置应用的及时性

经过上一次改进版，缓存流程基本确认下来。目前上线观察情况如下：

缓存命中率
- hot cond 220509 灰度单台top100 命中率 3.7% 184w, cache 缓存命中率 18%
- hot cond 220512 灰度单台top150 命中率 5% 184w, 早高峰命中率在 10% 下午在 12%
- hot cond 220518 灰度单台top150 命中率 5.3% 177w, 早高峰9.30 到 10点10 命中率在 13% 下午1点到3点在 10%
情况综述
- 目前缓存命中率整体效果一般
- 在盘中尤其是峰值是有较好的效果，在空闲时间命中率比较低
- 上面这个情况还是乐观的，缓存最初的效果也是抗峰流，平时较低可能是结果页互动的页面较少且无规律，top聚集不起来
  二、问题缺陷

缓存命中率需要提升
- 当前是根据所有请求信息的condition信息做key来分析
- 这样会存在这种情况，一个问句或者一种条件会一个股票一个股票来请求，这样其实把这个条件的聚集度打散
计算资源成本需要节约
- 目前流程是dataquery 集群所有节点都做请求信息的推送
- dataquery每个一个节点都增加少许负担（目前已优化占有资源很少）
- flink任务计算相当于对同一份任务重复计算n倍（但样本是最准确的）浪费资源
  三、改进方案