Aggregation¶

1. 场景¶

用于对数据集做聚合。支持多个分组字段，支持对数值类型、字符类型和日期类型的列进行聚合，同时支持按字段类型进行聚合。

2. 能力¶

除了传统的聚合函数(count、sum、min、max、avg、mean)之外， pipeline还提供部分自定义聚合函数（Decay、Frequency、Entropy、Unique、TopValues、TopCounts、TopPercents、BottomValues、BottomCounts、BottomPercents）。自定义函数具体含义如下：

Decay:
Frequency:
Entropy:
Unique:
TopValues:
TopCounts:
TopPercents:
BottomValues:
BottomCounts:
BottomPercents:

pipiline支持自定义聚合字段后缀名可选，可用Suffix来指定

3. 输入¶

需要指定group by columns，添加aggregate function 且聚合后字段名后缀可选

4. 案例说明¶

设输入如下数据：某小程序应用的页面访问行为数据，每条记录代表一次访问行为，分别记录用户 user_id、日期 date、行为 event、停留时长 stay。

user_id	date	event	stay
1234	2021-01-01	visit_main	1.5
1234	2021-01-02	visit_detail	4.0
1234	2021-01-02	visit_detail	2.2
5678	2021-01-02	visit_main	1.1
5678	2021-01-02	visit_main	2.0

若聚合目标是：每个用户每天每个页面访问次数和访问时长。根据以上输入数据和聚合目标，需指定group by columns 是 user_id 、date 、event，aggregate function和columns分别是 Count 、 event 与 Sum、 stay，则经过aggregation节点处理后，输出如下：

user_id	date	event	event_count	event_stay_sum
1234	2021-01-01	visit_main	1	1.5
1234	2021-01-02	visit_detail	2	6.2
5678	2021-01-02	visit_main	2	3.1