特征预处理

机器学习的数据预处理较重要因为:

  • 允许算法能够处理数据,例如:部分算法在数据未处理时无法应用(格式不支持)或效果很差(数据未归一化时的KNN)
  • 通过选择最相关的数据/特征,帮助模型学习。

然而在数据流中,用于数据预处理的统计信息通常难以提前获得。

Summarization Sketches 摘要草图

利用有限的内存空间描述数据流信息,同时支持快速处理与合并。
Bloom filters 快速找到集合中是否存在一个元素
CM-Sketch 统计不同元素在数据流中的出现次数
Graphical Model Sketch 是潜入贝叶斯网络或朴素贝叶斯分类器的草图,减少内存的使用量。
如何利用将草图技术嵌入机器学习模型

Feature Scaling 特征缩放

Landmark window approachs 计算数据流的平均值与方差
将特征缩放技术融入其他流式数据技术,例如:Drift Detection

Feature Discretization 特征离散化

Partition Incremental Discretization (PiD): 第一层根据给定的数据生成大量区间,第二层将大量区间合并成出现频率相同的若干区间。
ChiMerge
与特征变换缩放,需要能够被动态地融入其他方法中。
Invalid entries handling

Dimensionality reduction 降维

memory-limited approximation of PCA:基于采样和草图技术,能够在合理的错误内计算PCA
a single-pass randomized PCA
暂时没看,数据降维也将收到概念、语义的一些变化,需要被模型考虑。

Feature selection 特征选择

截屏2022-03-04 下午4.44.22.png
在数据流中动态发现哪些特征是有效的,并使模型动态迁移至已有的模型。
特征的评价存在困难,流数据中模型不断更新,因此不同的模型输入相同的特征集合其性能也不同,无法横向比较。

流数据学习

时序数据

从流数据中学习需要满足,接收数据后能够实时或接近实时地更行模型。
时序数据与流数据:数据流中存在基于时间的依赖关系则为时序数据,而数据流则假设样本独立同分布。
时序数据与流数据可以相互转化,只需要解耦当前数据点与之前数据点之间的相关性即可,即构造样本: Machine learning for streaming data: state of the art, challenges, and opportunities - 图2

半监督学习

在标记到达存在延迟时,如何有效地评估算法
如何处理 out-of-order 数据
将传统半监督学习的理论迁移到非稳态的问题中
批数据问题拓展到流数据场景中
迁移学习的进一步应用

类别不平衡问题

流式数据中的类别不平衡情况是动态的
高效地处理类别不平衡的情况

动态的学习环境

  • 检测变化
  • 新类出现
  • 相关特征的变化
  • 最有参数的变化

概念产生变化,通常假设概念的真实标记能够较快的到达,即在t+1时刻真实标记到达,如果无法满足此要求,通常算法的性能不能满足要求。
特征产生变化,原本相关的样本特征会逐渐变得无关,类似于Domain Adaptation,特征空间在逐渐变化。
特征 / 概念产生突变,特征/类别在数据中突然出现或消失。
在数据流中持续学习/优化超参数