【拉勾】 | python第二次直播
基础补充
基本对象
基本数据类型:python 数据类型
时间函数
需求
把不规范的数据规范化,输入的时间是字符串类型,需要先将str转化成time,此时是time类型加上31天,得到需求结果,再将time转成str
import datetime a = ‘10/20/2021 08:01:02’ # 原始数据是不规范的,冒号是中文 date= date.time.date.time.strptime(a,’%m/%d/%Y %H: %M: %S ‘) #原数据是中文冒号,这里也要写中文 print(date) #+31天,不能直接加31,要用到函数datetime.timedelta date_set = date + datetime.timedelta(days = 31) #现在得到的date_set就是增加了31天之后的时间了 b = datetime.datetime.strftime(date_set,’%Y—%m—%d %H:%M:%S’) #最终结果就是规范化的数据并且相加31天
易错点,
strptime Python time strptime()方法 | 菜鸟教程
strftime Python time strftime() 方法 | 菜鸟教程
numpy笔试题
在numpy中有两个矩阵:array,mat。array偏向于表示向量,mat偏向于表示矩阵。
相似度计算,就是协同过滤的算法
对于numpy的理解和掌握还处于门外的级别,需要多练习项目让自己拥有能够独立解题的能力。
巴西电商项目
拿到数据第一步首先了解数据的各个字段代表的是什么意思,有没有缺失值,查看数据完整性,是否需要数据清洗。
- 字段解释
- 在客户ID列中,出现了浮点数,客户ID是固定的数值,通常情况下不会出现浮点数,出现浮点数就说明这一列里有Nan值,也就是空值,使用
d.isnan().any()
就可以查看空值。在pandas中会默认使用float64进行记录浮点数。 df.info()
显示所有信息- df.isnull().any()查看缺失值
- 在客户ID列中,出现了浮点数,客户ID是固定的数值,通常情况下不会出现浮点数,出现浮点数就说明这一列里有Nan值,也就是空值,使用
- 计算
GMV全称Gross Merchandise Volume,是成交总额(一定时间段内)的意思。GMV=销售额+取消订单金额+拒收订单金额+退货订单金额。简单来说就是成交金额-退款金额。
- 筛选第一季度和第二季度的数据
- 因为数据源的日期并不规范,需要将日期规范成容易处理的类型。
- df.query(),这是一个筛选函数,括号里面可以使用@符号后面跟声明的变量。/ Pandas查询数据df.query
from pandasql import sqldf
导入sql语法,可支持基本的SQL查询语句
- 因为数据源的日期并不规范,需要将日期规范成容易处理的类型。