一、研究目的
本实验以从某电商网站上抓取到的香水产品销量数据,分析香水销售的影响因素,为香水销售商判定采购计划以及用户选择香水提供依据。
二、数据预处理
2.1 处理 “评价”和“适用场所”字段
- “评价”字段的数据包含混合的中文和数字,末尾有一个“+”号,将其转为数值形式。例如,将类似“1.9万+”格式的“评价”字段的值转换为“19000”
- 解决方法:
- =IFERROR(IF(FIND(“万”,K19),LEFT(K19,2LEN(K19)-LENB(K19))10000),K19)
- 通过FIND查找单元格中是否带有“万”,如果有,利用LEFT取字符前的数字并乘以10000
- PS:因为FIND未找到会返回#VALUE,故在外嵌一个IFERROR函数,如没找到“万”则直接返回
- Len函数返回字符数,它把全角(如“汉字”)和半角(如“数字和字母”)字符都计作一个字符
- LenB函数返回字节数,它把全角字符计作 2 个字节、半角字符计作 1 个字节
- “适用场所”分解为“旅行”、“其他”、“约会”、“情趣”等8个字段,其类型是0和1,若有该适用场所,设为1,否则设为0
- 解决方法:=IF(ISNUMBER(FIND(“旅行”,I2)), 1, 0);
- ISNUMBER(value),判断该值是否是数字;
- FIND函数
- 将“商品产地”如“中国大陆”、“中国大陆上海”、“浙江义乌”等字样统一为“中国”
- 解决方法:利用通配符,通过字段搜索,含有“中国”、“浙江、“广”的地区统一替换为中国
2.2 对香水产品的价格和评价数进行离散化处理
将价格等间距地分为6个等级,记为低(0,100]、较低(100,300]、中等(300,500]、较高(500,700]、高(700,1000]、非常高(>1000)
将评价数等间距地分为7个等级,记为非常低(0,100]、低(100,500]、较低(500,1000]、中等(1000,2000]、较高(2000,5000]、高(5000,10000]、非常高(>10000)
将价格和评价数离散化后的变量记为“价格等级”和“销量等级”,在SPSS Modeler中使用「字段选项」的「导出」节点进行处理
2.3 香水“产地”缺失值过滤
使用SPSS的“记录选项”-“选择”组件对“商品产地”和“包装”的空值数据进行过滤
三、数据分析
3.1 销售数据统计分析
产品的评论数在一定程度上代表了产品的销量,因此用评论数来代替产品的销量。
3.1.1 香水“价格”和“销量”统计分析
3.1.2 香水产地分布分析
通过2.3丢弃缺失值,并把不明确产地的香水(e.g. 法国/德国)舍弃,最终得到饼图如下:
可以看到所有销量数据中,法国产香水明显占据了绝对的比例(49%),紧接着意大利产香水较受欢迎,美、中、英产香水为第三梯队,占9%左右,德国、西班牙香水最为冷门,只有3%。
3.1.3 产地、价格等级、包装、净含量平均销量关系分析
3.1.4 各场合不同价位的香水与平均销量的关系
3.2 销售影响因素分析
在影响香水产品销量的因素中,商品产地是最重要的,其次是分类、适用场合数量和香调,它们对销量有较大的影响。净含量、性别、价格等级、包装对销量的影响较小。
3.2.1 销量影响因素决策树分析结果
1.哪些地方产的香水最受消费者欢迎(试分析原因)
法国的香水最受消费者欢迎,根据3.1.2和3.1.3可知,法国产地的香水最多且评价数量最多,故法国香水最受消费者欢迎。
2.分析国产香水中各香调对销量的影响
国产浓香水销售等级非常高,国产混合香调和花果香调销量较低
3.对各个不同产地的香水,消费者的关注点有何不同
- 浓香水中,中法美产地香水销量较高高;
- 淡香水中,消费者偏好花果香调;
- 英国产浓香水,可能是香调比较特别,适用场合一般比较小众(<5)
- 美国产香水比较通用,男女销量都比较高
- 法式香水净含量一般比较少,适用场所类别丰富
3.3 香水适用场合关联分析
最低条件支持度设为55%,最小规则置信度设置为90%。
可以看到,大多数的适用场所之间关联性非常强,说明大部分的香水产品不仅仅只有一个适用场所,而是有多个适用场所。例如,适合日常使用的香水,往往也适合在商务、party聚会、约会上使用。在所有的8个适用场所中,日常、商务、party聚会、约会出现次数最多,也是相互关联性最强的场所,另外4个场所(旅行、情趣、运动、其他),则与其他适用场所关联性较小,说明这4个适用场所的香水产品针对性比较强。
**
后项 | 前项 | 支持度百分比 | 置信度百分比 | |
---|---|---|---|---|
1 | 日常 | party聚会 and 商务 | 75.869 | 100.0 |
2 | 日常 | 商务 | 81.391 | 99.749 |
3 | 日常 | 商务 and 约会 | 75.869 | 99.73 |
4 | 日常 | party聚会 and 约会 | 76.074 | 99.194 |
5 | 日常 | party聚会 | 80.777 | 98.987 |
6 | 日常 | 约会 | 82.822 | 98.519 |
7 | 商务 | party聚会 and 约会 and 日常 | 75.46 | 95.122 |
8 | 商务 | party聚会 and 日常 | 79.959 | 94.885 |
9 | party聚会 | 商务 and 约会 and 日常 | 75.665 | 94.865 |
10 | 约会 | party聚会 and 商务 | 75.869 | 94.609 |
11 | party聚会 | 商务 and 约会 | 75.869 | 94.609 |
12 | 约会 | party聚会 and 商务 and 日常 | 75.869 | 94.609 |
13 | 约会 | party聚会 and 日常 | 79.959 | 94.373 |
14 | 商务 | party聚会 and 约会 | 76.074 | 94.355 |
15 | 约会 | party聚会 | 80.777 | 94.177 |
16 | 商务 | party聚会 | 80.777 | 93.924 |
17 | party聚会 | 商务 and 日常 | 81.186 | 93.451 |
18 | party聚会 | 商务 | 81.391 | 93.216 |
19 | 约会 | 商务 | 81.391 | 93.216 |
20 | 约会 | 商务 and 日常 | 81.186 | 93.199 |
21 | 商务 | 约会 and 日常 | 81.595 | 92.732 |
22 | party聚会 | 约会 and 日常 | 81.595 | 92.481 |
23 | party聚会 | 约会 | 82.822 | 91.852 |
24 | 商务 | 约会 | 82.822 | 91.605 |
25 | 旅行 | party聚会 and 约会 and 日常 | 75.46 | 90.786 |
26 | 旅行 | party聚会 and 约会 | 76.074 | 90.323 |
3.4 香水聚类分析
对香水进行聚类分析,将数据中的商品产地、包装、香调、净含量、分类、性别、适用场合数量作为输入字段,使用SPSS Modeler进行聚类分析。
聚类质量为良好,轮廓测量大约为0.1
预测变量重要性依次为分类、净含量、香调、包装、适用场合数量、商品产地、性别。其中,分类,净含量还有香调是聚类的主要依据,而性别则是聚类过程中,对结果影响最小的因素。
本次聚类分析中涉及的香水大致可以分为6种:
从分类角度来看,大部分香水为淡香水EDT,总占81.7%;
从净含量的角度来看,大部分香水都是31~100mL,所占比重为78.9%。
从包装角度来看,基本上香水都是独立装;
从香调的角度来看,大部分香水是花果香调;
从商品产地的角度来看,大部分香水产自法国;
从适用场合数量来看,大部分都≥6;
从性别角度来看,几乎所有香水都适用于女性,也说明进行聚类时,性别对聚类结果的影响较低。
四、香水营销建议
价格制定方面:
- 根据3.1.1,500元以内的香水销量都比较好,占据了大部分销量,其中较低(百元内)和中等(300~500)价位销量最高,可考虑将价格价格控制在该区间内,从而保持良好的销量;
- 结合不同的场景来看,这两个价位的产品在日常、约会、party聚会等生活场景平均分布销量较多,商务场合产品线香水较不太适合低价位出售。
产品分类方面:**
- 由3.1,香水产品的产地、香调、净含量都会对销售产生很大的影响,因此选择正确类别的香水产品进行销售是提升销量非常重要的方面。
- 法国、意大利是世界上重要的香水奢侈品产地,法国、意大利的香水产品在世界范围内有着巨大的影响力;
- 国产香水在价格上有着更大的优势,口味也更符合我国消费者的喜好。
- 在香调方面,我国消费者喜好清淡的口味,因此花果香调之类的清新口味有更大的市场。
- 在净含量方面,便携性好的小包装香水产品更受消费者青睐。商家选择销售的产品时,需要综合考虑产地、香调、净含量,选择更受消费者欢迎的产品才能获得更多收入。
销售策略方面:**
- 由于消费者在购买香水产品时体现出了明显的价格敏感性,价格低的香水产品销量更好,商家可以制定一个短期促销策略,降低香水产品的价格,通过价格优势吸引消费者的注意力;
- 法国香水较受欢迎,香水店可以多进口销售法国香水;
- 组合装最受欢迎,商家可以多进行组合装的促销,以吸引消费者的购物欲;