单选题【5】
    分析需要至少一年的数据,且题干提到需看每个月的哪一天,所以需要采集每日价格。

    单选题【8】
    项目前分析详见链接

    单选题【11】
    分析题干术语
    显著性水平:指一次试验中小概率事物发生的可能性大小。
    单侧检验:单侧检验,是指当要检验的样本所取自的总体的参数值大于或小于某个特定值时,所采用的一种单方面的统计检验方法。
    单侧检验包括左单侧检验和右单侧检验两种。如果所要检验的是样本所取自的总体的参数值是否大于某个特定值时,则采用右单侧检验;反之,若所要检验的是样本所取自的总体的参数值是否小于某个特定值时,则采用左单侧检验。
    双侧检验:指当统计分析的目的是要检验样本平均数和总体平均数,或样本成数有没有显著差异,而不问差异的方向是否是正差还是负差时,所采用的一种统计检验方法。
    原假设与备择假设:原假设是在一次试验中有绝对优势出现的事件,而备择假设在一次试验中不易发生(或几乎不可能发生)的事件。因此,在进行单侧检验时,最好把原假设取为预想结果的反面,即把希望证明的命题放在备择假设上。原假设记为H0,备择假设记为H1。

    从题干得知,需要知道均值是否有下降,为左单侧校验,因此排除选项B。
    因为是要看参数值是否小于某个特定值,所以是左侧校验,然后通过显著性水平=0.05可知小概率事件发生几率较低,因此把H0设为大于等于0.90,即把均值并未下降作为原假设。

    单选题【15】
    数据项目设计详见链接

    单选题【16】
    因为年龄可以分层,不同年龄具备不同的社会特征,因此最为敏感

    单选题【22】
    年龄缺失->完整性,不要被其他干扰。

    单选题【24】
    分析题干,流量变大,但从全国变为了省内流量,面向的群体就是基本不出省的,排除B;套餐价格不变更易被接受,因此选C。

    单选题【25】
    由于快餐店坐标在大学城,因此2-6月的和7-9月的销售情况会由于暑假的存在显现出较大差异,因此选D

    单选题【30】
    展示比例,用饼图。

    单选题【31】
    数据的完整性要从主键的角度来看,故选A。

    单选题【35】
    数据来源丰富了,需要做的处理也多了,但是多样性带来的可能是质量降低,选A

    单选题【40】
    不一定要实时或者准实时的取数,可以是T+1,选A

    单选题【42】
    地区大于省份,只能用省份填充地区,不能用地区填充省份。

    单选题【44】
    线性回归为一次方程,不适合预测征信,故选逻辑回归。

    单选题【45】
    同环比信息与目前指标不重复,是合理的需求。

    单选题【46】
    顾客年龄字段大量缺失,属于完整性的问题

    单选题【49】
    ROI(Return On Investment)也就是广告主每获得一个有效转化所花费的成本,简单来说就是投资回报率或投入产出比。
    双样本T检验:双样本t检验是也是假设检验的一种,主要确定两个独立组样本的总体均值是否相等,必须是独立组(一个样本的数据,对另一组毫无关系,称为独立) 数据是连续型数据,比如要比较两家公司的工资水平和福利待遇。
    根据题干,比对的是ROI是否一样,没有说需要比对特定值,因此排除单侧检验。

    单选题【52】
    程序命名规范中不应该包含姓名,容易引起歧义。

    单选题【56】
    一份数据同时用于增长和税务的分析时,会体现数据质量的不同,说明口径不一致,选A。

    单选题【70】
    因为聚合了,所以行数减少

    单选题【71】
    讲道理,我觉得B是对的,但是答案选C

    单选题【74】
    分析报告里只包含了发现与结论,没有提出改进建议,故选A

    单选题【76】※
    最基本的模式是项集,它是指若干个项的集合。频繁模式是指数据集中频繁出现的项集、序列或子结构。频繁项集是指支持度大于等于最小支持度(min_sup)的集合。其中支持度是指某个集合在所有事务中出现的频率。频繁项集的经典应用是购物篮模型。

    购物篮模型:超市中购物清单中总是有一些项目是被消费者一同购买的. 如果我们能够发现这些关联规则(association rules), 并合理地加以利用, 我们就能取得一定成果. 比如我们发现热狗和芥末存在这种关系, 我们对热狗降价促销, 而对芥末适当提价, 结果能显著提高超市的销售额。

    频繁二项集:即包含两个元项的频繁项集。

    从题干可以获取二项集有:
    {方便面,矿泉水}、{方便面,火腿肠}、{方便面,可乐}、{方便面、薯片}
    {矿泉水、火腿肠}、{矿泉水、可乐}、{矿泉水、薯片}
    {火腿肠、可乐}、{火腿肠、薯片}
    {可乐、薯片}

    对应的支持度分别为
    2/6、3/6、3/6、1/6
    3/6、0、1/6
    1/6、1/6
    1/6

    因此支持度大于等于50%的频繁二项集共有3个,答案为4个,存疑,频繁项集为4倒是对,但是是二项集,我觉得应该为3

    单选题【84】※
    偏态分布:与正态分布相对。
    抽样分布的标准差:即标准误,反映的是平均抽样误差大小

    单选题【91】
    计算知名度应该是随机挑选人群,而不应该从交易数据获取,既然产生交易说明一定对该品牌有了解,数据不具有代表性,本质上是没有理解目标。

    单选题【92】
    外购数据有缺失很正常,难道就不干活了吗XD,故选B

    单选题【93】
    宏代码:批量或批处理的称谓,在数据探查阶段里工具代码会用的比较多。

    单选题【94】
    从题干可知,中位数为103,众数为102,平均数为106.4444.。
    因此,平均数>中位数>众数

    单选题【95】※
    聚类的数量为3,聚类的中心点如何确认?

    单选题【96】
    同94

    单选题【99】
    制定目标和范围,故选A

    单选题【104】
    直接记,随机森林

    单选题【105】
    根据定义可知,该客户均符合,因此同时属于流失和回头客

    判断题【111】
    用人数来检验犯罪率emm,算了,问就是对,可能是默认AB区总人数相同

    判断题【115】
    问占比就是饼图

    判断题【120】
    map任务不能处理数据聚合,但是Combiner可以,是我想多了(:з」∠)

    判断题【126】
    检测是否有缺失值用or,低级错误

    判断题【130】
    Support(支持度):表示同时包含A和B的事务占所有事务的比例。如果用P(A)表示使用A事务的比例,那么Support=P(A&B)
    Confidence(可信度):表示使用包含A的事务中同时包含B事务的比例,即同时包含A和B的事务占包含A事务的比例。公式表达:Confidence=P(A&B)/P(A)
    Lift(提升度):表示“包含A的事务中同时包含B事务的比例”与“包含B事务的比例”的比值。公式表达:Lift=( P(A&B)/P(A))/P(B)=P(A&B)/P(A)/P(B)。

    可见支持度高,可信度不一定就高

    判断题【131】
    欠拟合表示训练和检验误差都很大,根据题干可知表述错误。

    判断题【140】
    逻辑回归有Kernel等方法处理非线性问题。

    判断题【142】
    单选题里出现过,对

    判断题【145】
    完整的数据才能说明问题

    多选题【151】※
    双尾检验:即双侧校验

    多选题【153】
    OLTP面向实时业务,OLAP面向历史数据分析

    多选题【160】
    记住就好了,题目有问题,orderby和rownum

    多选题【161】※
    均值为28的正态分布,25以下的占30%,说明31以上的也占30%
    至于方差。。emm

    多选题【162】
    观察每个城市指标是否均衡发展->雷达图
    比较两个城市之间单个指标的情况->散点图

    多选题【163】※
    ABTest,简单来说,就是为同一个产品目标制定两个方案(比如两个页面一个用红色的按钮、另一个用蓝色的按钮),让一部分用户使用A方案,另一部分用户使用B方案,然后通过日志记录用户的使用情况,并通过结构化的日志数据分析相关指标,如点击率、转化率等,从而得出那个方案更符合预期设计目标,并最终将全部流量切换至符合目标的方案。

    多选题【165】
    HDFS的元数据采用元数据镜像文件(FSImage)+日子文件(edits)的备份机制

    多选题【167】
    分析题干
    当前时间:第三季度(7-9月)
    统计周期:第一季度(1-3月)
    维度:城市
    度量:流失客户数、流失资金(流失总资金/流失客户数)、回头客数量(流失后90天内重新开设账户的客户数)
    故选AD

    多选题【169】
    精确率是针对我们预测结果而言的,它表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP),也就是
    错题复盘 - 图1
    召回率是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。那也有两种可能,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN)。
    错题复盘 - 图2
    根据题干可知,设获胜为正,而小李预测获胜的场次(TP+FP)为17+5=22场,小李预测正确的场次(TP)为17场,因此准确率为17/22,小李预测错误的场次(FN)为3场,因此召回率为17/(17+3)=17/20,故选AC

    多选题【173】
    这里是指自动化部分的效率,故选BC

    多选题【174】
    根据映射表可以把门店映射为区域,选项BC其实都对,但是C更简单,故选AC

    多选题【178】
    分析题干
    增强型:一个维度,多个指标
    解释型:多个相关指标讲一个故事
    故选CD

    多选题【186】
    woc,逻辑回归是个分类算法嘛,那D是对的
    定量输出称为回归,定性输出称为分类,C是对的

    多选题【191】
    其实题目问的是只要出现缺失或者重复,就算是,所以ACE

    多选题【193】
    会造成全表扫描的情况:

    • 查询条件中带有where字段is null会导致全表扫描,不会使用字段索引
    • 不等于操作符会限制索引
    • 对于like ‘%…%’(全模糊),是无法使用索引的
    • where子句里对字段做函数操作
    • 复合索引失效

    多选题【194】
    方便计算报表KPI、易于设计数据仓库构架

    多选题【196】※

    多选题【197】※

    多选题【203】
    下个季度的市场占有率提高到50%->项目的目标和目的
    项目的前期投入比较大->历史沿革