我有一个这样分区的表。
# Partition Information
# col_name data_type
year string
month string
day string
hour string
我想在整个月内运行查询。我明白我能做到
where day > 01 and day < 31
但是桌子很大。有人告诉我这将花费太多时间,并且我应该每天单独运行它。我考虑过分区。喜欢
select col1, col2, sum(col3) over (partition by day)
from table
但我不确定这将如何工作。查询是否会在每一天连续工作。在集群上会更容易吗?col1 和 col2 会自动分组还是需要添加分组依据?
Table
col1 col2 col3 month date....
1 s 4 01 01
1 s 3 01 01
1 q 5 01 01
我想要的结果
col1 col2 col3 month date....
1 s 7 01 01
1 q 5 01 01
为了利用分区 -
您对整个月的查询应如下所示:
您在一天内的查询应如下所示:
您在某天范围内的查询应如下所示: