数据分析编程第六步：大数据运算

6.1 数据介绍

直接打开集算器运行 createEventsAndUsers.splx 文件，就可以得到如下两张表（也可以根据代码中的注释，修改起止日期以及每天的数据量）：

电商数据表 events.csv

字段名	含义
eventID	事件编号, 从 1 开始流水号
userID	用户编号
eTime	事件的发生时间
eType	事件类型，取值 login,viewProduct,placeOrder,completePayment

数据同时按 eTime 和 eventID 分别有序，因为数据是按发生时间追加的，所以始终按 eTime 有序，又 eventID 是流水号，所以也是天然有序

用户表 user.csv

字段名	含义
userID	用户编号，从 1 开始流水号
userName	用户姓名
city	所在城市

表间关系：

imagepng

6.2 选出 24 年国庆假期发生的所有记录

由于事件表很大，全内存无法放下，所以采用游标的方式，SPL 提供了文件游标，可以对着游标进行过滤、分组、汇总等各种运算。

	A
1	=file(“events.csv”).iselect@tc(`date("2024-10-01"):datetime("2024-10-07 23:59:59"),eTime ; userID,eTime,eType`)

A1 由于事件表按时间有序，所以采用 iselect 函数，直接对着数据文件按时间过滤，这样可以采用二分法，提高读数的效率，不满足过滤条件的数据直接跳过不读了。

分号前面的参数date("2024-10-01"):datetime("2024-10-07 23:59:59"),eTime表示选出 eTime 的值位于区间date("2024-10-01"):datetime("2024-10-07 23:59:59")之间的数据，两端均是闭区间。

分号后面的参数userID,eTime,eType表示选出字段，不需要用到的字段不选出，可以节约内存。iselect 函数返回结果是游标，可以直接进行下一步的运算，如果需要输出数据，可以 fetch 操作。

A1 的运行结果：

从上图可以看出，A1 返回的结果是个游标。

6.3 统计 24 年国庆假期发生的记录数、用户数

	A
1	=file(“events.csv”).iselect@tc(date(“2024-10-01”):datetime(“2024-10-07 23:59:59”),eTime ; userID,eTime,eType)
2	=A1.groups(; count(1):records,icount(userID):userNum)

A2 分组汇总，groups 函数可以直接对着游标操作，返回统计结果。特别注意：分号前面不写分组表达式，表示全集汇总。

A2 的运行结果如下：

6.4 按事件类型分组统计 24 年国庆假期的发生次数和用户数

	A
1	=file(“events.csv”).iselect@tc(date(“2024-10-01”):datetime(“2024-10-07 23:59:59”),eTime;userID,eTime,eType)
2	=A1.groups(eType;count(1):records,icount(userID):userNum)

A2 的运行结果如下：

6.5 统计 24 年国庆假期每天的总用户数、下单用户数、付款用户数

	A
1	=file(“events.csv”).iselect@tc(date(“2024-10-01”):datetime(“2024-10-07 23:59:59”),eTime;userID,eTime,eType)
2	=A1.group(date(eTime):Date; ~.icount(userID):TotalNum, ~.select(eType==“placeOrder”).icount(userID):OrderNum, ~.select(eType==“completePayment”).icount(userID):PayNum)
3	=A2.fetch()

A2 对着游标 A1 进行分组，group 函数表示分组过程中保留分组的组集；~.icount(userID) 表达式中的 ~ 表示当前的组集，整个表达式意思是对着当前组集统计 userID 的去重个数；~.select(eType==“placeOrder”).icount(userID) 表示对着当前组集先过滤出 eType 为 placeOrder 的记录，再对其统计 userID 的去重个数。

cs.group 函数的返回结果依旧是游标，A2 的运行结果如下：

A3 从游标 A2 中读出结果数据。

A3 的运行结果如下：

6.6 按天统计 24 年国庆假期北京地区的下单用户数

	A
1	=file(“events.csv”).iselect@tc(date(“2024-10-01”):datetime(“2024-10-07 23:59:59”),eTime;userID,eTime,eType)
2	=file(“user.csv”).cursor@tc(userID,city).select(city==“Beijing”).fetch()
3	=A1.select(eType==“placeOrder”).join`@i`(userID,A2:userID)
4	=A3.groups(date(eTime):Date;icount(userID):userNum)

A2 用户表数据量也非常大，本例只需要读取北京地区的用户，因此可以用游标的方式过滤后再 fetch()，这样非北京地区的用户数据就不会占用内存了。

A3 将 A1 先过滤出下单的数据，然后和 A2 关联，@i选项表示只保留关联上的记录，关联不上的记录直接删除（如果希望只保留关联不上的记录，删除关联上的记录，比如统计非北京地区的用户，那么可以把@i选项换成@d选项，其余不变即可）。因为 A1 是游标，所以 A3 的返回结果依旧是游标。

A4 将 A3 进行分组汇总。

A4 的运行结果：

知识点：先过滤后关联

上例的 A3 中关联的两个对象都是先分别进行了过滤，然后才进行关联，这样可以减少关联的次数，提升关联效率。

6.7 将事件表拆成一个月一张表，表内按 userID 排序

由于事件表数据量大，无法全内存放下，因此需要用游标排序：

	A
1	=file(“events.csv”).iselect@tc(date(“2024-10-01”):datetime(“2024-10-31 23:59:59”),eTime).sortx(`userID`)
2	=file(“events202410.csv”).export@tc(A1)
3	=file(“events.csv”).iselect@tc(date(“2024-11-01”):datetime(“2024-11-30 23:59:59”),eTime).sortx(userID)
4	=file(“events202411.csv”).export@tc(A3)
5	=file(“events.csv”).iselect@tc(date(“2024-12-01”):datetime(“2024-12-31 23:59:59”),eTime).sortx(userID)
6	=file(“events202412.csv”).export@tc(A5)