4.数据分析

4.数据分析

4.1 基于时间的用户行为分析

4.1.1 总访问量PV,总用户量UV

--总访问量PV,总用户量UV
create table res_pv_uv
comment "page views and unique visitor"
row format delimited
fields terminated by ','
lines terminated by '\n'
STORED AS TEXTFILE
as
select pv, uv
from (
    select count(*) as pv from user_behavior1 where behavior_type='pv'
) t1
join(
    select count(distinct user_id) as uv from user_behavior1
) t2
on 1=1;

select * from res_pv_uv;
+-----------+---------+
|    pv     |   uv    |
+-----------+---------+
| 88596886  | 987984  |
+-----------+---------+

思考以下select语句的优劣和正确性,和上面的语句谁能更好的发挥分区表的优势

4.1.2 日均访问量,日均用户量

4.1.3 一天的活跃时段分布

比较以下语句

4.1.4 一周用户的活跃分布

比较以下语句

4.2 用户行为转换率

这里使用了Brickhouse UDF,用collect UDF便捷实现了TRANSPOSE

4.3 复购率

4.4 基于 RFM 模型找出有价值的用户

RFM 模型是衡量客户价值和客户创利能力的重要工具和手段,其中由3个要素构成了数据分析最好的指标,分别是:

  • R-Recency(最近一次购买时间)

  • F-Frequency(消费频率)

  • M-Money(消费金额)

4.5 商品维度的分析

4.5.1 item_id商品

对于不同的behavior_type, 排名前50的商品,用pyhive分析后,转化表再插回。

4.5.2 商品大类category_id

Last updated