spark性能调优 - Spark最大化内存使用效率 - 《Spark 基础和调优》

小🌰 : Label encoding

小🌰 : Label encoding

模型特征按照是否连续可以分为两类：连续性数值特征和离散型特征，离散型特征往往以字符串的形式存在，比如用户兴趣特征就包括体育、政治、军事和娱乐等。对于很多机器学习算法来说，字符串类型的数据是不能直接消费的，需要转换为数值才行，例如把体育、政治、军事、娱乐映射为 0、1、2、3，这个过程在机器学习领域有个术语就叫 Label encoding。

📖 1：

// 函数定义 - 反例
def findIndex(filePath: String, interest: String): Int = {
  val source = Source.fromFile(filePath, "UTF-8")
  val lines = source.getLines().toArray
  source.close()
  val searchMap = lines.zip(0 until lines.size).toMap
  searchMap.getOrElse(interest, -1)
}
// Dataset中调用
findIndex(filePath, "体育-篮球-NBA-湖人")

📖 2:

// 函数定义 - 正例1:高阶函数
val findIndex: (String) => (String) => Int = {
  (filePath) =>
      val source = Source.fromFile(filePath, "UTF-8")
      val lines = source.getLines().toArray
      source.close()
      val searchMap = lines.zip(0 until lines.size).toMap
      (interest) => searchMap.getOrElse(interest, -1)
}
val partFunc = findIndex(filePath)
partFunc("体育-篮球-NBA-湖人")

处理函数定义为高阶函数，形参是模版文件路径，返回结果是从用户兴趣到索引的函数
封装千亿样本的Dataset所调用的函数，不是第一份代码中的findIndex，而是用模版文件调用findIndex得到的partFunc，partFunc是行参为兴趣，结果为索引的普通标量函数
用户代码先在Driver端用模版文件调用这个高阶函数，完成第一步计算建立字典的过程，同时输出一个只带一个形参的标量函数，这个标量函数携带了刚刚建好的映射字典。最后，Dataset将这个标量函数作用于千亿样本之上做Label encoding。这样，函数的第一步计算只在driver端计算一次，分发给集群中所有executors的任务中封装的是携带了字典的标量函数。然后在Execturos端，executors在各自的数据分片上调用函数，省去了扫描模版文件，建立字典的开销。最后，我们只需要把样本中的用户兴趣传递进去，函数就能以O(1)的查询效率返回数值结果

User Memory性能隐患

在运行时，这个函数在 Driver 端会被封装到一个又一个的 Task 中去，随后 Driver 把这些 Task 分发到 Executor，Executor 接收到任务之后，交由线程池去执行。这个时候，每个 Task 就像是一架架小飞机，携带着代码“乘客”和数据“行李”（searchMap），从 Driver 飞往 Executor。Task 小飞机在 Executor 机场着陆之后，代码“乘客”乘坐出租车或是机场大巴，去往 JVM stack；数据“行李”则由专人堆放在 JVM Heap，也就是我们常说的堆内内存。

Task分发过程中的网络开销
Executor的User Memory需要寄存这份同样的数据（数据大小？用户自定义的数据结构往往是用于辅助函数完成计算任务的，所以函数执行完毕之后，它携带的数据结构的生命周期也就告一段落。因此，只需要关注executor在同一时间可以并行处理的task数量，也就是executor的线程池大小。那么User memory至少需要提供#threads * #size这么大的内存空间）

📖 3:

// 广播变量
val source = Source.fromFile(filePath, "UTF-8")
val lines = source.getLines().toArray
source.close()
val searchMap = lines.zip(0 until lines.size).toMap
val bcSearchMap = sparkSession.sparkContext.broadcast(searchMap)
bcSearchMap.value.getOrElse("体育-蓝湖-NBA-湖人", -1)

小飞机之前需要携带函数findIndex，现在则换成了一位“匿名的乘客”：一个读取广播变量并调用其getOrElse方法的匿名函数。由于这位匿名乘客将大件行李托运给了“联邦广播快递公司”的专用货机，因此，task小飞机着陆后，没有任何行李需要寄存到User Memory

广播变量所携带的数据内容会物化到MemoryStore中去，以executor为粒度为所有task提供唯一的一份数据拷贝。MemoryStore产生的内存占用会被记入到Storage Memory上。由于广播变量分发和存储以executor为粒度，因此每个executor消耗的内存空间，就是searchMap一份数据拷贝的大小