kudu hdfs 数据分层 灵活存储
转载自:海底苍鹰
网上购物,很多人只会看最近三个月,或者半年的订单,更早的历史订单就很少有人关注了。这种场景还是挺适合kudu+hdfs.
Apache Kudu旨在
快速分析、快速变化
的数据。Kudu提供快速插入/更新和高效列扫描
的组合,以在单个存储层上实现多个实时分析工作负载。因此,Kudu非常适合作为存储需要实时查询的数据的仓库。此外,Kudu支持实时更新和删除行,以支持延迟到达的数据和数据更正。Apache HDFS旨在
以低成本实现无限的可扩展性
。它针对数据不可变的面向批处理的场景进行了优化,与Apache Parquet文件格式配合使用时,可以以极高的吞吐量和效率访问结构化数据。kudu存最近半年的订单数据,hdfs存历史的订单数据。
1.创建kudu测试表
2.创建hdfs测试表
3.kudu表插入数据
4.hdfs表插入数据
kudu表的数据,根hdfs表的数据,没有月份上重复。
5.创建视图
6.查看view和表数据
二张表的数据,都能在视图中体现
7.查看表分区
8.准备impala sql脚本
9.执行脚本
10.执行后,查看数据
从执行后的数据可以看出,视图数据是没有变的。kudu表的部分数据迁到了hdfs表中了。
11.查看分区
kudu表,少了一个旧分区,多了一个新分区。
hdfs表,多了一个分区。
kudu hdfs 数据分层 灵活存储
https://www.gmtgo.com/13996.html