在线、近线、离线

online部分的主要任务是进行用户请求的实时处理，模型的在线服务。在线部分需要更快地响应最近的事件和用户交互，因此对于延迟的要求比较苛刻，一般都要求在100ms以内完成所有处理，这会限制所用算法的复杂性和可处理的数据量。正是online部分极高的响应延迟要求和相比离线、近线较弱的数据处理能力，要求online部分采用不同的高效的model serving方法去支持个性化推荐服务。
基于数据消息队列，利用一些流计算平台进行数据的准实时处理。它居于离线和在线之间，既可以以分钟级别甚至秒级的延时来准实时地处理数据，也有一定的数据批量处理能力。nearline可以说是近几年大数据架构发展的重中之重了。当时Netflix开发了自己的流处理框架Manhattan，但现在已经是Flink一统天下的时候，Netflix内部的Flink平台每天会运行上千个不同的流处理任务。涵盖了特征实时计算、数据监控、BI、模型实时训练等等。越来越多的offline任务被替代，也许Kappa架构彻底替代Lambda架构的日子不太远了。
存储离线数据，利用大数据查询工具进行数据查询和处理，离线模型训练。离线部分对于数据数量和算法复杂度限制很少，以批量方式完成数据处理，但是数据处理的实时性非常差，无法做到数据和模型的即使更新。
介绍下论文
OLIVER: A Jointly Learning Framework for Guided Abstractive Text Summarization
生成式摘要较抽取式更灵活、通顺，但很难控制，关键信息缺失。
previous work：使用document关键信息作为guidance signal
有两个可以提升的点：

增强guidance signal 和 source document之间的交互
优化document的表征空间

CPT和BART：LCSTS和Reddit-TIFU
全量数据；小样本。

实验：

全量
消融
小样本
人工评估

Limitation：

模板搜寻
对比学习负样本

机器学习

项目相关面试题

在线、近线、离线

介绍下论文