推荐系统及算法常见知识点

白天 夜间 首页 下载 阅读记录
  我的书签   添加书签   移除书签

特征离散化

浏览 138 扫码 分享 2023-05-03 16:44:56
  • 特征离散化的优缺点
    • 优点
    • 缺点
  • 离散化方法
  • 参考文献

    特征离散化的优缺点

    优点

    1. 增加对异常值的鲁棒性
    2. 降低过拟合风险
    3. 增加算法的非线性能力
    4. 方便特征交叉
    5. 便于理解

    缺点

    1. 可能造成维度灾难
    2. 部分信息丢失
    3. 对于分箱边界点,会影响模型的稳定性

    离散化方法

    1. 等宽分箱
    2. 等频分箱
    3. 聚类分箱
    4. 决策树分箱
    5. 卡方分箱

    参考文献

    1. 「特征」常用特征离散化方法

    若有收获,就点个赞吧

    0 人点赞

    上一篇:
    下一篇:
    • 书签
    • 添加书签 移除书签
    • 数学
      • 假设检验
      • 拟牛顿
      • 距离度量
      • 余弦相似度
      • 拉普拉斯分布
      • 频率学派与贝叶斯学派
      • 内积和外积
    • 数据预处理
      • 样本分布不一致
      • 数据清洗
      • 白化的含义
      • 样本不平衡
    • 特征工程
      • 特征选择方法总结
      • CTR平滑技术综述
      • 特征离散化
      • 组合特征处理
      • 贝叶斯平滑
    • Embedding技术
      • Word2Vec
      • Item2vec
      • DeepWalk
    • 机器学习
      • 有监督学习
        • 线性回归
        • 逻辑回归
        • 支持向量机(SVM)
        • SMO算法
        • SVM与LR
        • 决策树算法对比
        • 决策树算法的缺点
        • 决策树对连续值和缺失值的处理
        • 决策树的剪枝
        • KNN算法
        • 线性判别分析(LDA)
        • LDA与PCA的区别
        • 朴素贝叶斯
        • 贝叶斯网络
        • 极大似然估计
        • EM算法
        • 高斯混合聚类算法
      • 无监督学习
        • 主成分分析PCA
        • K-means算法
        • Canopy算法
        • DBSCAN算法
        • DBSCAN如何选择参数
        • LDA的数学原理
        • LDA模型
      • 集成学习
        • LigtGBM模型代码原理
        • 训练GBDT算法的参数
        • DART
        • Bagging与Boosting
        • GBDT算法
        • XGBOOST算法详解
        • XGBoost的构造问题
        • 随机森林
      • 损失函数
      • 模型融合
      • 正则化
      • 没有免费的午餐
      • 拟合问题
    • 深度学习
      • BN和LN的原理
      • 神经网络使用激活函数的原因
      • 神经网络的特点
      • 梯度消失问题
      • 神经网络的参数初始化
      • 反向传播算法
      • 学习率的选取
      • 循环神经网络的激活函数
      • LSTM
      • LSTM的激活函数
      • GRU
      • 注意力机制
      • 激活函数GELU
      • 池化
      • 残差连接
      • 模型不收敛
      • GAN
      • 正则化
        • DropOut
        • 权重衰减
        • 提前停止
        • 对抗训练
    • 知识蒸馏
      • 知识蒸馏简介
    • 对比学习
      • 对比学习简介
      • 典型模型
      • 召回和粗排
    • 对抗训练
      • 对抗训练浅谈
    • 优化算法
      • 梯度下降算法
      • 随机梯度下降算法的加速
      • 坐标下降法
      • 贝叶斯优化
    • 召回算法
      • 召回的方法总结
      • 协同过滤
        • Apriori算法
        • FP Growth算法
      • MF算法
      • YouTubeDNN召回
      • YoutubeDNN召回的创新点
    • 排序算法
      • Wide&Deep
      • 常见模型对比
      • GBDT LR算法
      • YoutubeDNN排序的创新点
      • FM与FFM
      • 负样本构造
    • 最近邻搜索算法
      • 常见的搜索算法
      • KNN
      • 维度诅咒
      • Locality Sensitive Hash(LSH)
      • NSW算法
      • HNSW算法原理
      • Product Quantization(PQ)
    • 模型评估
      • GAUC
      • F1-Score
      • ROC的AUC具有鲁棒性的原因
      • 模型的评估指标
      • 训练集和测试集
      • 评估方法
      • 偏差、方差与噪声
      • 回归的评估指标
    • Java
      • HashSet的遍历方式
    • 推荐系统知识
      • 排序指标
      • 召回和排序
      • 推荐系统的架构
      • 冷启动
      • 序列化推荐算法
      • CTR建模理论
      • CVR初探
    • 代码常见题
      • 数组中数字出现的次数
      • 两个有序数组找数字
      • 爬楼梯
      • 爬楼梯可回退
      • 寻找中位数
      • 归并排序
      • 快排
      • 数组的TopN
      • 接雨水
      • 给NX3的网格图涂色的方案数
      • 公交路线
      • n次方幂
      • 平方根
      • 平方根(进阶版本)
      • 分割数组
      • 寻找下一个大的数字
      • 数组中的第K大数字
      • 扑克牌中的顺子
      • 约瑟夫环
      • 不用加减乘除做加法
      • 求所有质数
    • 计算机操作系统
      • 线程和进程的区别
    • SQL
      • Hive的SQL查询语句详解
    • 面试集锦
      • 面试知识点
      • 项目介绍
      • 模型介绍
      • 竞赛介绍
      • 面经
    • Readme
    暂无相关搜索结果!

      让时间为你证明

      展开/收起文章目录

      分享,让知识传承更久远

      文章二维码

      手机扫一扫,轻松掌上读

      文档下载

      请下载您需要的格式的文档,随时随地,享受汲取知识的乐趣!
      PDF文档 EPUB文档 MOBI文档

      书签列表

        阅读记录

        阅读进度: 0.00% ( 0/0 ) 重置阅读进度

          思维导图备注