1、有难度

1、1. 1 解一个满秩的三元一次方程组

1.2 解一个有50个方程而且自相矛盾的三元一次方程组,解释思路即可

这道题会给候选人15分钟。本土应届硕士生解出的比例大约在10%,留美生解出比例大约20%

  1. 给候选人看Anscombe’s Quartet的四张图,问他/她如何对这些数据集建模

本土应届硕士生解出比例10%, 留美生30%

  1. 描述自己擅长的任意统计或者机器学习模型,然后深入问下去。比如说候选人说svm,那我就会问他gamma和c的统计学意义是什么。比如说候选人说回归,我就会问他regularization的统计学意义是什么。
  2. 大学/研究生上过的课程中,让你印象深刻的是哪一段?

如果候选人在数据科学领域学习过程中没有‘我靠这也行’的经历,那么要么是老师太差,要么是学生太差。

5、协方差矩阵有啥用啊

作者:东吴花猫堡

链接:https://www.zhihu.com/question/48315705/answer/112875086

来源:知乎

著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

2、ceo的答案

作者:桑文锋

链接:https://www.zhihu.com/question/48315705/answer/111570304

来源:知乎

著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

首先,是和分析能力无关的三点:

1,候选人是否对大数据分析真的感兴趣。一个人对一件事情很感兴趣,就会花120%的精力去学习和研究它,相反,可能在工作的时间还在考虑别的事。数据分析的工作通常都比较枯燥,获取需求并满足需求,不断的在重复这一过程。如果不是感兴趣的,干三个月挺新鲜,干六个月就不想干了,干一年就立马走人了。而对于有兴趣的人来说,会从一个个的需求和一堆堆的数字里发现有趣的东西,进而去影响产品发展。

2,积极主动。数据分析往往不是说需求是明确的,源数据是现成的,只要按部就班的实现就可以了。往往还需要推动工程团队帮着去完成数据采集,推动数据平台团队去实现更好的分析工具。如果不够积极主动,这些事情往往是原地踏步的。另外,对于业务方提出的需求,不能说只是停留在需求本身,还要思考业务方想要什么,我从数据上怎么能够帮助到他们。

3,快速学习能力。大数据分析是一个探索型的行业,许多事情都是雏形。这就要求分析师要不断的学习,学习专业知识,学习国内外好的实践。而不能固步自封,只停留在书本上的那点知识。还要尝试各种新工具。

除了以上三点基本的要求,我就会考察:

4,抽象能力。是不是能够从杂乱的需求中抽象共性,用优雅的方法更高效的解决问题。比如我自己在2008年的时候根据以往的许多脚本,分析出常见的统计需求无非是计数,去重数,top N这三类流量统计的需求,于是抽象了一个交互界面,让需求开发代价从几天降到了几分钟,并且连产品经理都可自助完成。

5,数据分析工具的熟悉程度。会不会SQL,对常用的统计分析工具是不是够了解。

6,通过数据为业务带来价值的经历。

3、面试题

作者:徐小磊

链接:https://www.zhihu.com/question/48315705/answer/500677440

来源:知乎

著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

1)逻辑性和统计学

  • 聚类和分类的区别?举例(不要听背课本的,要听到候选人自己的理解)
  • 评估回归模型的指标?为什么?举例
  • 时间序列的预测,原理是什么?如何评估预测的准确性?
  • 相关和因果有什么区别和联系?举例
  • 数据统计、数据分析和数据挖掘的区别和联系?举例

2)数据分析思路类

  • 你认为数据分析如何体现价值?你是怎么做的?
  • 看到指标的变化(例如日活下跌),你会如何分析?先做什么、再做什么,告诉我你的思路和缘由
  • 注册类指标和活跃类指标,你会看哪个?为什么?说出3点原因
  • 你的报表体系怎么建设的?为什么这么建设?说出3点原因

3)数据分析技能类

  • 你理解的指标是什么?组成部分?业务意义?用途?举例
  • 什么是指标体系?如何建立的?如何应用的?(结合候选人简历中的实际项目)
  • 指标、维度和度量的区别和联系?(由区分度、有难度,60%的人讲不清楚)
  • “过去3年广州地区A产品的月活增长率“,几个指标几个维度几个度量?
  • 下钻分析,“下钻”的是什么?交叉分析,“交叉”的是什么?举例
  • 什么是线性?线性回归模型适用哪些场景?为什么?说出3点原因
  • 你如何管理指标的口径?如何让口径达成统一和共识?为什么?说出3点原因

4)数据敏感性类

这个部分我会给候选人一个非常简单的题目,见下图。其中,要求至少说出3条所看出的事实。

数分面试题 - 图1数分面试题 - 图2假设是iPhone X在不同城市,不同时间的销售量

还请私信我询问答案呀,评论留言容易错过诶

信息极其有限,但是确实考察了数据敏感度、数据分析的思路、多维分析能力以及基础的统计学知识。

有的候选人只能看出3条,有的看出10条。

说的再多,简历再好,也不如这个题目10分钟考察的结果,高下立判。

5)其他好玩的问题

  • 数据分析这么枯燥,你为什么想做呢?说出3点原因
  • 你怎么看待数据分析?说出3点原因
  • 生活中有无用过数据分析的技能解决过问题的?举例
  • 给你两周时间,写一份陌生行业的分析报告,你会怎么做?
  • 流量反映在指标上,是什么指标?为什么?说出3点原因

4、比较中肯

一、首先是比较宏观的地方

1、因为是转行加零基础,一般面试官必问的一个问题就是为什么要选择做数据分析?

这个问题建议结合原工作回答,从原工作引申过来。

2、你对数据分析这个职位有什么看法?

这个问题挺宽泛的,见仁见智吧。

3、你觉得数据分析最重要的是什么?

一般我是回答和业务结合在一起,不过最近发现好像还有更高一个层级的东西。

4、你觉得数据分析最难的地方在哪里?

这个最好结合面试的公司说,容易引起共鸣吧

5、有的面试官可能还会问,上一份工作内容,因为我读研是环工,工作时选的大专老师,而且半年多就辞了,经历挺混乱吧,面试官会针对这一点问的比较多。

最好提前梳理一下前工作的职责、部门架构、你的突出表现什么的。

工作内容主要说说做了什么比较突出的,有一个面试官还问了我三十多分钟环保行业。

不管讲什么……尽量不要说前上司的坏话,不要抱怨前一任领导和同事们。

6、你对公司有了解过吗?主要了解什么?

这个问题通常都会问到,所以事前的准备非常有必要,不管是小公司还是大公司,一旦你说出不了解这几个字,基本上就尬了。

而且不了解一下就去面试,对自己也是挺不负责任的吧。

7、可能会问一些沟通协调能力方面的问题,这个也比较随机,时间比较多的话可以提前整理一个你在这方面的经验。

二、业务方面

一般会结合具体场景,所以有必要尽量先了解清楚你面试的公司所在的行业,它的行业特点是什么。以免闹笑话。

比如问你我要做某个东西,用什么算法啊,模型啊。

我运营过程中,看某个指标有问题,你会怎么具体分析啊。

我这个产品有某种情况,你觉得会是什么原因,怎么求证?

我要做某个模型,你认为哪几个指标是关键指标?

这个地方问的都挺随机的,但是一定是逃不掉的,尤其是对与转行的或者没有经验的应届生来说,理解业务还是很不容易的。

个人觉得业务部分回答的好坏比其他部分都重要的。

三、技术方面

因为我面的不是数据挖掘类的,再加上转行无经验,一般面试官不会考特别难的,主要就是考查你到底掌握的怎么样。

这里有一个大忌就是千万不要写一大堆东西,精通的不精通的都写到简历上去,没用的东西直接删掉就行了。你写上去的基本都会一一问到,我主要是写了excel SQL python。因为我写的excel十分精通,还有人问到vba什么的。

SQL我写的熟悉,面试官问的时候一般也立刻承认不是精通的那种,一般会问连接表 什么的,不会问太难的问题,有时候有SQL笔试,但是我感觉没有特别难笔试, 把select、表连接 还有group by还有排序学熟一点。。。。

python的话我其实挺弱的,好在基础语法来回练了很多遍,相对扎实,你写上去的库一般是必问的,还会问点爬虫吧。

项目经验的话确保你写的项目你可以说的蛮有条理的,努力写几个项目吧,但是这个最好也不要造假,一般写了必问。

5、统计篇

作者:杨笛笛

链接:https://www.zhihu.com/question/48315705/answer/112887759

来源:知乎

著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

统计篇:

我们不是搞学术的,所以很少会被问到统计方面的太高端的专业问题,毕竟面试官一般都不是统计专业的。但是了解以下几个知识点肯定会对”商业数据分析“的面试肯定有帮助(比如你可以”不小心“说几个专业名词…)之所以说”商业数据“,是因为以下几点经常发生在部分对数据还不是很明白的公司中:

相关性和因果关系的区别(Correlation and Causation) 最简单的例子就是某公司周末搞地推活动,然后在周末公司的app就获得了更多的增长,但是有可能只是周末有更多的人在网上闲逛…

过度外推(Over Extrapolation) 你给了我3个月的数据,让我预测未来三年的趋势?

维数灾难(Curse of dimensionality) 只有一百个数据点,却有1000的维度…这就需要之前提到的降维。

过度拟合(Over fitting) 只要给我足够的自由度(degree of freedom),你想要什么形状的回归线我都能做出来,但是这样就失去了预测力(predicative power),因此在考核回归的时候不光要看拟合度也就是R^2, 也要关注:

交叉检验(Cross-validation) 简单来说就是用已有的数据监测算法的预测力,在机器学习中和各种回归中都很常见。

幸存者偏差(Survivorship Bias) 这个问题经常出现在缺乏统计背景的同事或者上司中。 比如之前帮某川菜餐厅做了一些营业数据分析,他们曾经让服务员问过顾客对菜品的辣度满意吗,有没有觉得太辣。 普遍的回答都是“不是太辣,可以接受”。 因此他们得出结论,上海人普遍可以接受这种辣度。 但其实当我带一些本地的朋友去,大部分还是扛不住的… 这就是由于他们的餐厅很难被找到,所以顾客大多是回头客,既然是回头客当然觉得菜品味道可以接受了对吧…

聚类错觉 (Clustering Illusion) 简单来说就是,并不是所有现象都有一个很高端的解释,也许真的就是运气好… 比如某卖菜大妈炒股一年赚了100万,某环卫大爷彩票中奖500万,你一定要我去分析他们为什么可以做到很多精英都做不到的事,我除了说运气好还能说什么呢…

方差和偏差的权衡 (Variance and Bias Trade-off) 鱼和熊掌不可兼得。

置信区间 (Confidence Interval) 是更怕Type I还是Type II的error?就是宁可错杀一千不可放过一人,还是反之?

经济和金融篇:

数据分析师要服务于商业,所以了解一些基础的经济学是很有必要的,例如:

机会成本 (Opportunity Cost) 比如我深夜写答案的机会成本就是少睡3小时的觉。

供需关系 (Supply and Demand) 为什么KTV在周末比较贵。

收入效应和替代效应 (Income Effect and Substitution Effect) 工资少了是要工作更多来养家呢?还是缺少动力所以工作更少了?

替代品和互补品 (Complimentary Goods and Substitution Goods) 这个公司的产品和哪些已有产品是替代(竞争)的关系,哪些是互补的关系?

垄断 (Monopoly) 这个公司在这个行业是垄断地位吗?垄断有很多好处喔!

进入壁垒 (Entry Barrier) 这个行业有什么进入壁垒吗?有的话可以保持垄断喔!

作者:杨笛笛

链接:https://www.zhihu.com/question/48315705/answer/112887759

来源:知乎

著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

6、大神

1. 基本工具

包括规定动作和自选动作两类。目前我所在的组不需要关心数据来源和结构化的问题,有专门的工程师团队写爬虫、做清洗、维护计算集群和数据库。所以主要考察点在于查询和衍生指标的计算方面。

1.1 规定动作

SQL查询:JOIN ON、DISTINCT、GROUP BY、ORDER BY等等。从数据库中提取数据是数据分析的第一步。另外我们的数据规模是TB级的,所以还要能使用SQL让集群做一些简单的计算,不然都下载到本地的话运算资源是肯定不够的。可能还会问一些非常基础的问题,比如PRIMARY KEY、int、str、double之类。

Excel:数据透视表、VLOOKUP、COUNTIFS、SUMIFS、VAR.P、条件格式等等,可能会涉及到诸如VLOOKUP中的TRUE和FALSE参数有什么区别,VAR.P和VAR.S有什么区别等细节问题。

1.2 自选动作

根据简历来问,简历上写什么就问什么,会问得比较深入。Python、Stata、R、SPSS、SAS、EViews都算比较常见的数据分析工具。顺便奉劝各位不要作死,毕竟不作死都有可能会死。比如简历上写“精通Python”,虽然我知道简历注水是常态,但既然都“精通”了,那我问到pandas,regular expression,DataFrame.iterrows()返回的是Series还是dictionary还是list of tuples,tuple和list的区别的时候好歹都得答出来吧……

2. 逻辑思维

主要分为两方面,对业务逻辑的理解能力和行文的逻辑水平。

2.1 业务逻辑

虽然一个业务看似流程简单清晰,但产生数据的复杂程度往往超过大多数人的想象。对业务逻辑的考察主要通过相关项目经历。如果是典型的学校项目,我会比较关心指标设计选取、代理变量选择、误差分析、因果性解释等。

这里再次奉劝各位不要作死,写在简历上的项目经历起码自己要非常熟悉,对答如流。如果我听你介绍15秒项目后提出的问题(如“你为什么说 北京经济适用房建筑面积与房屋建造年份的乘积 是一个非常重要且有实际意义的解释变量?”)就能把你难住的话,那你也会把我难住的——尼玛面试评价表怎么写啊摔!我回去就得把HR批判一番!!!

以我为例,我每天接触的是700多张表,每张表的字段往往超过200个。这些表和字段往往还有关联。面对这么多业务指标,能否迅速理解它们之间的联系? 面对新的数据需求,能否逻辑清晰地将它拆分成指标、二级指标并进行各种计算? 面对复杂的局部最优化和全局最优化需求,能否“抓大放小”,能否迅速找到关键控制点、关键影响因素并加以优化? 我每天通常只有不到1小时的时间用来出一份要发给CEO等大佬的,关于业务数据分析和后续指导意见的报告。思维不敏捷,逻辑不清晰的话,是很难做好这份工作的。

2.2 行文逻辑

毕竟最终产出是一份份报告,可能是HTML邮件也能是PDF。文章结构还是很重要的。这里不展开说了,不过关键的几点是先说结论,先写摘要。

3. 理论储备

也分为规定动作和可选动作。

3.1 规定动作

主要是基础的统计学理论,如方差、协方差、算数平均数、几何平均数、中位数、众数、分位值、双峰数据、长尾数据、假设检验、期望迭代法则、贝叶斯原理等。

3.2 自选动作

根据简历来问,简历上写什么我一定会问什么。第三次奉劝各位不要作死,写的检验也好机器学习算法也好好歹自己要知道原理、适用条件、局限性。不然我跟你聊起Pearson distance、K-means cluster的随机性问题的时候你接不上来也是很尴尬的。

4. 对细节的敏感度

作为数据分析师,每天要关注大量数据指标。对细节的敏感度是非常必要的。这主要分为两方面,对统计口径的敏感度和对数据的敏感度。

4.1 统计口径

统计口径一致是确保数据可比性的基础,这非常考验数据分析师的敏感度和行业经验。比如转化率,是点击算转化还是注册算转化还是购买算转化?配送时间,是从用户下单开始计时还是从订单确认开始计时还是从商品出库开始计时?客单价包不包括配送费、打包费、代金券形式的折扣优惠?

4.2 数据

我非常关心候选人对数据异常波动、离群值、平均数没有代表意义等情况的迅速识别能力。比如已知然寿司套餐单价1,500,酒水单价300,平均客单价2,500,能不能马上想到这可能是双峰数据或者长尾数据,抑或既双峰又长尾的数据?

5. 学习能力

互联网行业瞬息万变,光数据的存储就有Oracle、MySQL、Hadoop、Spark、Hive、Impala、谷哥哥三驾马车等一大堆奇奇怪怪的东西。互联网行业的从业者经常要面对新需求、新工具、新方法。能否迅速掌握新知识,解决新问题是候选人必须证明给我看的。

主要考察的方式是了解过往项目经历,或者我出作业题(比如Sci-Hub)。

6. 排版和简单UI设计

我认为数据分析报告必须简洁、清晰、重点突出。主要考察方式是出作业题让候选人限时交一份slides(就是PPT啦)出来。能掌握标准的Microsoft Design Language是大大的加分项。

7. 价值观

主要看工作热情、态度、道德水平等等,这方面我问的问题比较随机,没什么规律可循,甚至问过机械键盘、人体工程学设计等方面的问题。