一、机器学习&数据挖掘

1.1基础&理论方法

特征工程

「特征工程」之零基础入门数据挖掘
资料 | Google 发布官方中文版机器学习术语表
用机器学习神器sklearn做特征工程!

特征选择

特征选择方法最全总结!
特征选择的通俗讲解!
特征选择方法总结(附代码)
特征选择的通俗讲解!
数据维度爆炸怎么办?详解5大常用的特征选择方法

特征组合/特征交叉

来聊聊:特征交叉
DataTalk:为什么特征组合后效果更好?

模型融合

机器学习模型融合方法综述
一文总结模型融合方法(全)

交叉验证

详解机器学习中的7种交叉验证方法

数据增强

数据增强的现实应用思考
数据增强 | 现实应用思考
机器学习之旅必须知道的 Pandas 函数
所以,机器学习和深度学习的区别是什么?

多分类

改进版的KNN、改进版的贝叶斯、改进版的SVM、改进版的逻辑回归
机器学习中的多分类任务详解
深入理解GBDT多分类算法
缓解多分类的样本不均衡问题
多分类逻辑回归(Multinomial Logistic Regression)
将“softmax+交叉熵”推广到多标签分类问题

1.2总结&综合&综述

一文读懂常见的9种距离度量方法
收藏 | 机器学习模型与算法最全分类汇总!
决策树、随机森林、bagging、boosting、Adaboost、GBDT、XGBoost总结
阿里算法工程师总结:机器学习算法优缺点对比
【机器学习】机器学习算法优缺点对比(汇总篇)
【收藏】图解最常用的10个机器学习算法!
大数据架构干货文章精选(推荐收藏)
embedding亦福亦祸?XGBoost与LightGBM的新机遇
机器学习必知必会10大算法!
Github标星10.4k:用 NumPy 实现所有主流机器学习模型
【机器学习】建议收藏的 725 个机器学习术语表,太全了!
机器学习理论基础到底有多可靠?
机器学习建模中的Bagging思想!
【机器学习】图解机器学习中的 12 种交叉验证技术
一文详解机器学习中最好用的提升方法:Boosting 与 AdaBoost
用于机器学习和深度学习的集成堆叠
【阿里妈妈数据科学系列】第四篇:Bootstrap方法在AB TEST中的应用
业界总结 | BERT的花式玩法
NLP技术基石:从N-gram统计语言模型到BERT预训练模型演变史概述
各种机器学习算法选择思路
交替方向乘子法(ADMM)算法原理详解
漫谈统计学习之经验贝叶斯(Empirical Bayes)
10种聚类算法的完整python操作示例

1.3面经

收藏 | 200 道机器学习面试题
机器学习面试 | 结合论文理解XGBoost推导过程
终于把XGBoost总结写出来了!
收藏 | 机器学习、深度学习面试知识点汇总
结合论文理解 XGBoost 推导过程
【机器学习】机器学习基础知识常见问题详解!
机器学习基础知识详解!
《深度学习500问》一份超全深度学习资料,面试必备!
浅析机器学习算法的应用场景!

1.4其他

WWWJ | 基于多视图表示学习的专利分类
2021 年了,机器/深度学习还有哪些坑比较好挖?
机器学习的学习经验总结!
【机器学习基础】超全汇总!机器学习常用术语词汇表(建议收藏)
机器学习15种常用数学符号!
谷歌出品!机器学习常用术语总结
历史最全机器学习/深度学习/人工智能专业术语表中英对照表
收藏从未停止,学习从未开始:机器之心2020年度教程合集它来了
Tianchi发布最新AI知识树!
深度学习-机器学习从入门到深入全套资源分享
ML、DL、NLP面试常考知识点、代码、算法理论基础汇总分享
李航老师《统计学习方法》及相关资源的最全汇总
【机器学习】机器学习项目流程
我是如何寻找数据集的,一些个人私藏
一文全览机器学习建模流程(Python代码)
九月组队学习来了!
稀疏性在机器学习中的发展趋势:MoE、稀疏注意力机制
我的机器学习入门清单及路线!
SimBiber最新更新!支持pip安装!

1.5数据挖掘

4W字,最强 Matplotlib 实操指南!
【数据科学】 推荐一个更高效的数据清洗方法,建议收藏
Spark推荐实战系列之KMeans介绍和冷启动与兜底召回
5W字总结Spark(建议收藏)
微博基于Flink的机器学习实践
一起揭开 Hive 编程的神秘面纱
Datawhale SQL教程来了!
Spark推荐实战系列之LR的两种实现方式和多分类LR实战介绍
我的Pandas学习经历及动手实践
京东Flink优化与技术实践
Linux最强总结!
Flink 对线面试官(四):1w 字,6 个面试高频实战问题(建议收藏)
大数据 Kafka 十道常见面试题,一万字总结,12 大知识点!
kaggle项目:基于随机森林模型的心脏病患者预测分类!
特征工程在实际业务中的应用!
【基础+实践】随机森林预测心脏病患者
Redis 三大问题:Redis 缓存击穿(失效)、缓存穿透、缓存雪崩怎么解决?
2w 字详述双流 Join 3 种解决方案 + 2 种优化方案
我的大数据面试题网站上线了!
什么?2022 你还不知道这款宝藏级刷题小程序?(重点是免费)
大厂肝完这波 kafka 调优,还会被裁?(一万字总结!)
你管这破玩意儿叫 Spark 存储系统:数据存哪儿了?(一万字总结)
【Python】Python的类和对象(长文系列第⑤篇)

二、深度学习

2.1基础&理论方法

2.1.1 自编码器

自编码器的最佳特征:最大化互信息

2.1.2 预训练

12个NLP预训练模型的学习笔记
【预训练模型】一文串起从NLP到CV 预训练技术和范式演进
综述!信息检索中的花式预训练

2.1.4提示prompt

一文跟进Prompt进展!综述+15篇最新论文逐一梳理
Prompt learning系列之prompt engineering(二) 离散型prompt自动构建
NLP Prompt系列——Prompt Engineering方法详细梳理
Prompt learning系列之prompt engineering(三) 连续型prompt自动构建
最新NLP Prompt代表工作梳理!ACL 2022 Prompt方向论文解析

2.1.5数据增强

一种巧妙且简单的数据增强方法 - MixUp 小综述
一篇就够!数据增强方法综述
数据竞赛之10大文本数据扩增策略!

2.1.6其他

【深度学习】深度学习之解构基础网络结构
论文|万物皆可Vector之语言模型:从N-Gram到NNLM、RNNLM
什么是Inductive bias(归纳偏置)?
深度学习基础 | NLP大魔王 · BERT
神经网络的5种常见求导,附详细的公式过程
「PyTorch自然语言处理系列」3. 神经网络的基本组件(上)
漫谈度量学习(Distance Metric Learning)那些事儿
变分贝叶斯深度学习综述
Hide Your Convolutions:纯MLP来搞CV
训练CV模型新思路来了:用NLP大火的Prompt替代微调,性能全面提升
论文阅读:对抗训练(Adversarial Training)
BERT 之后的故事
小白学NLP:BERT优化方向综述
NLP关键词提取必备:从TFIDF到KeyBert范式原理优缺点与开源实现
小样本学习方法总结
【机器学习】一文彻底搞懂自动机器学习AutoML:Auto-Sklearn

2.2总结&综述&综合

NewBeeNLP 年中 | From NewBee To NB
深度学习这些年那些超重要的idea回顾总结
推荐:学习自然语言处理(NLP)的学习方法和资料合集
21年最新-自然语言处理系统性入门学习指南中文版分享
重磅 | 完备的 AI 学习路线,最详细的资源整理!
一文读懂各种神经网络层( Pytorch )
深度学习模型压缩算法综述
深度学习「CV」学习实践指南!
一份最新的、全面的NLP文本分类综述
深度学习中的优化算法串讲
收藏!机器学习算法优缺点综述
通俗讲解深度学习和神经网络!
最新最全最详细中文版-《迁移学习简明手册》pdf分享
台大李宏毅《机器学习》2021课程撒花完结!除了视频、PPT,还有人汇编了一本答疑书
李航老师《统计学习方法(第二版)》课件 & 算法代码全公开了!
一文回顾深度学习发展史上最重要经典模型
万字长文!DeepMind科学家总结2021年的15个高能研究
重磅!2021年智源「人工智能」前沿报告(AI Frontiers)发布,236页pdf
2021->2022必看的十篇「深度学习领域综述」论文
NLP往期文章汇总
Prompt learning系列之入门篇
稀疏大模型简述:从MoE、Sparse Attention到GLaM
深度学习/机器学习技术发展核心算法、策略、数据集及框架整理分享
授人以渔:一位北航妹子的算法学习之路

2.3其他

硬核!深度学习中的Normalization必知必会
惊了,掌握了这个炼丹技巧的我开始突飞猛进
【深度学习】收藏|神经网络调试Checklist
肝了一晚上,总结了Pytorch的训练秘诀!
深度学习如炼丹,你有哪些迷信做法?网友:Random seed=42结果好
深度学习调参tricks总结
在做算法工程师的道路上,你掌握了什么概念或技术使你感觉自我提升突飞猛进?
我把炼丹炉炼炸了…….
炼丹侠必知的11大神经网络结构汇总!
知乎 | 写深度学习代码需要遵守哪些顺序?
炼丹知识点:那些决定模型上限的操作
写给新手:2021版调参上分手册!
深度学习的四个学习阶段~
实践教程:CNN调优总结
机器学习中四种调参方法总结
炼丹知识点:模型的燃料,数据采样的秘密
你的 GNN,可能 99% 的参数都是冗余的
浅谈训练集和测试集分布不一致
大模型炼丹无从下手?谷歌、OpenAI烧了几百万刀,总结出这些方法论…
Kaggle Top1% 是如何炼成的!
数据驱动的算法工程落地!
2022年了,PyTorch和TensorFlow选哪个?
关于炼丹,那些不为人知的细节
你有哪些深度学习(RNN、CNN)调参的经验?
论文复现不出来?Maria小姐姐这份《论文复现指南:要求、挑战与技巧》33页ppt帮你指点如何高效复现论文
深度神经网络模型训练中的 tricks(原理与代码汇总)

三、实践

42个Python使用小例子[内附200+代码地址]
一份数据挖掘入门指南
Kaggle所有文本特征汇总!
【竞赛相关】Kaggle竞赛宝典国内外竞赛方案汇总
特征选择的通俗讲解!
专业解读:为什么要做特征归一化和标准化?
kaggle进阶技能-相关性可视化三重奏!
2020 年度最佳的23个机器学习项目!(附源代码)
一键数据分析&自动化特征工程!
5种数据同分布的检测方法!
A/B 测试的完整过程!

Leetcode 高频题 2021 版

四、比赛

模型部署的主要技术
深度学习建模预测全流程(Python)!
Kaggle操作完整指南!
自然语言处理竞赛相关比赛项目、比赛经验、工具、算力平台资源分享
用PaddlePaddle打比赛!
竞赛人学习深度学习的四种阶段!
下一站,向冠军冲击!
推荐竞赛金牌技能!
2021网易伏羲算法大赛来啦
我在交大的数学建模经验!
用PaddlePaddle打比赛!
KDD Cup 2022竞赛汇总
KDD Cup历年比赛汇总(1997-2021)
小数据集上分策略 伪标签
RecSys Challenge 历年推荐赛题汇总
Kaggle 2021年 45场比赛&优胜方案汇总
简单模型大比赛,天池Top5方案回顾—含代码
Kaggle知识点:入门到进阶的10个问题