论文笔记 - Machine learning for streaming data: state of the art, challenges, and opportunities - 《Machine Learning》

特征预处理
流数据学习
动态的学习环境

特征预处理

机器学习的数据预处理较重要因为:

允许算法能够处理数据，例如：部分算法在数据未处理时无法应用（格式不支持）或效果很差(数据未归一化时的KNN)
通过选择最相关的数据/特征，帮助模型学习。

然而在数据流中，用于数据预处理的统计信息通常难以提前获得。

Summarization Sketches 摘要草图

利用有限的内存空间描述数据流信息，同时支持快速处理与合并。
Bloom filters 快速找到集合中是否存在一个元素
CM-Sketch 统计不同元素在数据流中的出现次数
Graphical Model Sketch 是潜入贝叶斯网络或朴素贝叶斯分类器的草图，减少内存的使用量。
如何利用将草图技术嵌入机器学习模型

Feature Scaling 特征缩放

Landmark window approachs 计算数据流的平均值与方差
将特征缩放技术融入其他流式数据技术，例如：Drift Detection

Feature Discretization 特征离散化

Partition Incremental Discretization (PiD): 第一层根据给定的数据生成大量区间，第二层将大量区间合并成出现频率相同的若干区间。
ChiMerge
与特征变换缩放，需要能够被动态地融入其他方法中。
Invalid entries handling

Dimensionality reduction 降维

memory-limited approximation of PCA：基于采样和草图技术，能够在合理的错误内计算PCA
a single-pass randomized PCA
暂时没看，数据降维也将收到概念、语义的一些变化，需要被模型考虑。

Feature selection 特征选择

截屏2022-03-04 下午4.44.22.png
在数据流中动态发现哪些特征是有效的，并使模型动态迁移至已有的模型。
特征的评价存在困难，流数据中模型不断更新，因此不同的模型输入相同的特征集合其性能也不同，无法横向比较。

流数据学习

时序数据

从流数据中学习需要满足，接收数据后能够实时或接近实时地更行模型。
时序数据与流数据：数据流中存在基于时间的依赖关系则为时序数据，而数据流则假设样本独立同分布。
时序数据与流数据可以相互转化，只需要解耦当前数据点与之前数据点之间的相关性即可，即构造样本： Machine learning for streaming data: state of the art, challenges, and opportunities - 图2 。

半监督学习

在标记到达存在延迟时，如何有效地评估算法
如何处理 out-of-order 数据
将传统半监督学习的理论迁移到非稳态的问题中
批数据问题拓展到流数据场景中
迁移学习的进一步应用

类别不平衡问题

流式数据中的类别不平衡情况是动态的
高效地处理类别不平衡的情况

动态的学习环境

检测变化
新类出现
相关特征的变化
最有参数的变化

概念产生变化，通常假设概念的真实标记能够较快的到达，即在t+1时刻真实标记到达，如果无法满足此要求，通常算法的性能不能满足要求。
特征产生变化，原本相关的样本特征会逐渐变得无关，类似于Domain Adaptation，特征空间在逐渐变化。
特征 / 概念产生突变，特征/类别在数据中突然出现或消失。
在数据流中持续学习/优化超参数