特征预处理
机器学习的数据预处理较重要因为:
- 允许算法能够处理数据,例如:部分算法在数据未处理时无法应用(格式不支持)或效果很差(数据未归一化时的KNN)
- 通过选择最相关的数据/特征,帮助模型学习。
Summarization Sketches 摘要草图
利用有限的内存空间描述数据流信息,同时支持快速处理与合并。
Bloom filters 快速找到集合中是否存在一个元素
CM-Sketch 统计不同元素在数据流中的出现次数
Graphical Model Sketch 是潜入贝叶斯网络或朴素贝叶斯分类器的草图,减少内存的使用量。
如何利用将草图技术嵌入机器学习模型
Feature Scaling 特征缩放
Landmark window approachs 计算数据流的平均值与方差
将特征缩放技术融入其他流式数据技术,例如:Drift Detection
Feature Discretization 特征离散化
Partition Incremental Discretization (PiD): 第一层根据给定的数据生成大量区间,第二层将大量区间合并成出现频率相同的若干区间。
ChiMerge
与特征变换缩放,需要能够被动态地融入其他方法中。
Invalid entries handling
Dimensionality reduction 降维
memory-limited approximation of PCA:基于采样和草图技术,能够在合理的错误内计算PCA
a single-pass randomized PCA
暂时没看,数据降维也将收到概念、语义的一些变化,需要被模型考虑。
Feature selection 特征选择
在数据流中动态发现哪些特征是有效的,并使模型动态迁移至已有的模型。
特征的评价存在困难,流数据中模型不断更新,因此不同的模型输入相同的特征集合其性能也不同,无法横向比较。
流数据学习
时序数据
从流数据中学习需要满足,接收数据后能够实时或接近实时地更行模型。
时序数据与流数据:数据流中存在基于时间的依赖关系则为时序数据,而数据流则假设样本独立同分布。
时序数据与流数据可以相互转化,只需要解耦当前数据点与之前数据点之间的相关性即可,即构造样本: 。
半监督学习
在标记到达存在延迟时,如何有效地评估算法
如何处理 out-of-order 数据
将传统半监督学习的理论迁移到非稳态的问题中
批数据问题拓展到流数据场景中
迁移学习的进一步应用
类别不平衡问题
流式数据中的类别不平衡情况是动态的
高效地处理类别不平衡的情况
动态的学习环境
- 检测变化
- 新类出现
- 相关特征的变化
- 最有参数的变化
概念产生变化,通常假设概念的真实标记能够较快的到达,即在t+1时刻真实标记到达,如果无法满足此要求,通常算法的性能不能满足要求。
特征产生变化,原本相关的样本特征会逐渐变得无关,类似于Domain Adaptation,特征空间在逐渐变化。
特征 / 概念产生突变,特征/类别在数据中突然出现或消失。
在数据流中持续学习/优化超参数