TF-IDF

https://blog.csdn.net/u011630575/article/details/80179494

ALS(交替最小二乘法)

http://www.6aiq.com/article/1525160905109

分类(classification)

决策树

image.png
信息增益 = 信息熵 - 条件熵
ID3用信息增益,C4.5用信息增益率,CART用gini系数。
信息熵越大决策树越好
减少最大深度,可以降低过拟合。

随机森林

就是多棵决策树结果加权平均。
随机决策森林甚至能知道其内部哪棵决策树是最准确的,因而可以增 加其权重。

朴素贝叶斯(Naive Bayes Classifier)

image.png

支持向量机(Support Vector Machine)

逻辑回归(Logistic Regression)

KNN(K-近邻算法)

计算距离方式

  • 欧氏距离
  • 曼哈顿距离
  • 闵可夫斯基距离
  • 切比雪夫距离
  • 余弦距离

文本数据以及用户评价数据中更常用余弦相识度。

聚类(clustering)

K-means(K均值)

求欧式距离代码

  1. def distance(a: Array[Int], b: Array[Int]) = {
  2. math.sqrt(
  3. a.zip(b)
  4. .map(x => x._1 - x._2)
  5. .map(x => x * x)
  6. .sum
  7. )
  8. }

标准差公式

  1. math.sqrt(n*sumSq-sum*sum)/n

检验模型质量可以求平均质心距离或信息熵或Gini(基尼)不纯度。

GMMs(高斯混合模型)

LDA

特征转化

https://yq.aliyun.com/articles/577701

参考资料

https://endymecy.gitbooks.io/spark-ml-source-analysis/

设:AE = x,B坐标原点

向量CE = BE - BC = (x, 4) - (4, 0) =(x-4, 4)
向量EF = CE顺时针旋转90度 = ( (x-4)cos(-90) - 4sin(-90), (x-4)sin(-90) + 4cos-(90) ) = (4, 4-x)
向量BF = BE + EF = (x, 4) + (4, 4-x) = (x+4, 8-x)

|BE| = sqrt(16 + x^2)
|EF| = sqrt((x+4)^2 + (8-x)^2)

设: f(x) = √2|BE|+|EF|
f(x) = √2*sqrt(16 + x^2) + sqrt((x+4)^2 + (8-x)^2)

f’(x) = 2√2*x/sqrt(16+x^2) + 24/sqrt((x+4)^2 + (8-x)^2)
因为 x 属于 [0 ,4]
所以f’(x) 恒大于等于 0,f(x)单调递增

minf(x) = f(0)
= √24+ √80
=4
√2 + 4*√2
=4(√2+√5)

image.png


https://blog.csdn.net/v_JULY_v