找了一些对数据分析师和数据科学家的要求,总结了以下知识点:
流程
数据库:Hadoop MySQL
脚本:Shell
分析语言:Python R
分析工具:SPSS MATLAB
数理统计
描述统计
假设检验
线性回归
时间序列
指数
学习基础的描述统计学理论、基本的概率知识、二项分布和贝叶斯公式,并学会使用 Python 来实践;学习正态分布、抽样分布、置信区间以及假设检验的概念和计算方式;学习线性回归以及逻辑回归,在真实场景中应用,比如分析 A/B 测试结果,搭建简单的监督机器学习模型。
Python
连接数据库
导出导入 csv/xlsx 文件
操作数据,转置、排序、修改、增删
绘制图形
时间函数
进行描述性统计
进行预测
机器学习知识
线性回归、代价函数、梯度下降、多项式线性拟合
正规方程
特征处理
逻辑回归
正则
神经网络
设计误差分析
支持向量机
聚类
PCA 主成分分析
异常检验
推荐系统协同过滤
机器学习基础
学习机器学习的基础知识,初步了解一些机器学习可以完成的任务,如分类与回归问题,包括机器学习涉及到的统计分析知识以及模型评估和验证知识。
实战项目:预测波士顿房价
案例演练:泰坦尼克号乘客生存率分析
案例演练:预测你的下一道世界料理
监督学习
监督学习是通过已标注过的训练数据来完成分类或回归任务的一类机器学习方法。学习决策树、神经网络、支持向量机等监督学习算法。
实战项目:为慈善机构寻找捐赠者
案例演练:游戏玩家付费金额预测
案例演练:为信贷公司搭建金融风控模型
案例演练:企业广告点击率预测
非监督学习
当数据样本没有标签的情况下,非监督学习是其解决问题的最佳方案。学习聚类,特征工程和降维等非监督学习算法。
实战项目:创建客户细分
案例演练:电影评分的 K-MEANS 聚类
案例演练:使用特征脸方法和 SVM 进行脸部识别
深度学习基础
深度学习是当今世界上非常火热的一类机器学习方法,在许多领域中甚至超过了人类的能力。学会使用 Tensorflow,并且学习卷积神经网络等知识。
Python 中的线性代数
学习人工智能领域必备的数学知识:向量、线性变换和矩阵。你还将更深入地学习神经网络背后的线性代数。
解决问题:
1- 利用机器学习模型预测股票走势;
2- 为某平台搭建金融风控模型;
3- 为某集团打造用户分层模型。
名词 | 英文 | 作用 | 实践 |
---|---|---|---|
聚类分析 | Cluster | 目的:探索样本的同质组,将相似的对象组成一个簇。用于分析簇之间的差异和相似性。 案例:将用户群根据消费次数/消费类型等分成 3 类。 |
python |
比较分析 | Comparative | 目的:使用模式分析、过滤和决策树等来比较多个数据集。 案例:在医疗领域,通过比较大量的医疗记录、文件、图像等,给出更准确的医疗判断。 |
|
关联分析 | Connection | ||
相关性分析 | Correlation | 目的:分析变量之间是否存在正相关/负相关。 | |
异常值检测 | Outlierdetection | 异常值是严重偏离一个数据集或总平均值的对象,需要另加分析或剔除。 | |
回归分析 | Regressionanalysis | 目的:确定两个变量间的依赖关系。这种方法假设两个变量之间存在单向的因果关系(自变量 因变量)。 | |
主成分分析 降维 |
|||
线性回归 | |||
PV | Page View | 页面浏览量,不去重,刷新也计算 | |
UV | Unique Vistor | 独立访客,根据 Cookie 去重 | |
Bounce Rate | 跳出率 | ||
用户模型 (客户评估模型) |
RFM 模型 | 客户价值分析模型 R:Regency(近度),即客户最近一次交易与当前时间的间隔。 F:Requency(频度),即客户的交易频率。 M:Montary(额度),即客户的交易金额。 |
|
忠诚度模型 | |||
活跃度模型 | |||
客户细分模型 | Look-alike 模型 | ||
客户响应模型 | 流失预警模型 |
大数据基础知识考试内容:
了解大数据的定义、特点等
了解数据的类型和丌同的分析处理方法
了解大数据相关的概念、实际的应用案例、适用的场景等
了解云计算的特点、云计算不大数据的关系
了解大数据相关的技术,如存储、计算、分析等
了解大数据职业的特点不对人才的要求
大数据存储技术考试内容
了解分布式存储技术的概念不特点
了解数据存储技术适用的丌同场景,包括数据类型(如结构化、半结
构化、非结构化数据)、数据容量、使用场景等
了解数据库的基本概念不特点,包括可靠性、约束、三范式、适用场
景等
了解数据仓库的基本概念不特点,包括不数据库的区别、ETL 等
了解 HDFS 不 MaxCompute 的构成不特点
了解文件存储、数据库存储、分布式存储之间的优缺点
掌握大数据计算服务的数据上传和下载,可以熟练使用 MySQL、HDFS、
MaxCompute 等进行数据存储
了解 Hadoop、MaxCompute 等产品的基本概念不特点,包括应用
场景和局限性
数据分析工具考试内容
掌握大数据计算服务的 SQL 命令,包括 DDL、DML 以及常见内置函数
了解 MapReduce 的基本概念不特点
能够使用 DataIDE 的数据开发模块进行设计开发,包括建表、任务开发、数据上传等
能够使用 MySQL、MaxCompute、Hive 平台进行数据分析
数据可视化考试内容
了解数据可视化的基本知识,如定义、特点、实现方式等
了解 Quick BI、DataV 的产品特点和使用场景
了解常见图表类型的特点和适用场景
能够使用 Quick BI 设计开发报表和门户
了解可视化产品的分类和基本设计原则
数据编程考试内容
掌握数据预处理的基本方法
了解描述性统计分析的概念和特点,包括常见统计量、概率分布、拟
合不检验
了解假设检验的概念和特点,能够根据应用场合真确使用正态分布单
样本和双样本和二项分布假设检验
能够基于项目的目标不范围规划数据分析方案,设计合理的指标
了解数据分析编程的特点,包括编程手法、编程效率、编程规范和质
量控制
了解指标体系的概念,包括总量指标、结构指标和平均指标,并能够
合理应用达到数据分析目的
掌握数据分析报告撰写的规范
数据项目质量控制考试内容
了解数据质量的 5 个维度的概念和特点
了解在数据质量的 5 个维度基础上,脏数据的种类、来源、造成的影响
掌握处理脏数据的方法,包括对脏数据的检查、修复、清洗、转换等
了解数据质量问题在数据编程过程中发生的原因,并能够利用质量检
验的技术手段保证项目的顺利执行
了解项目的目标是数据分析项目中衡量数据质量的主要标准,并能够
判断数据中的质量问题是否对数据分析项目产生影响
数据项目设计不执行考试内容
了解项目工程管理方法论的定义、特点和实际应用场景
能够理解数据分析项目的实施流程、重点环节、数据项目执行流程的
重要性
掌握项目设计的特点,包括业务问题数据化、明确项目的目的、范围、
和分析维度等
能够利用项目绩效分析实现项目后数据分析
能够利用现状、原因、预测的分析方法实现项目前数据分析
了解临时性项目不经常性项目之间的区别
机器学习考试内容
了解机器学习常见的算法,如聚类、决策树、关联分析等
了解机器学习的常见使用流程,包括算法调优和效果评估
能够使用聚类分析,包括 K-means 算法对相似的顾客分类
能够使用决策树算法生成商业规则
能够使用关联分析实现购物篮分析