kudu hdfs 数据分层 灵活存储 转载自:海底苍鹰 网上购物,很多人只会看最近三个月,或者半年的订单,更早的历史订单就很少有人关注了。这种场景还是挺适合kudu+hdfs. Apache Kudu旨在快速分析、快速变化的数据。Kudu提供快速插入/更新和高效列扫描的组合,以在单个存储层上实现多个实时分析工作负载。因此,Kudu非常适合作为存储需要实时查询的数据的仓库。此外,Kudu支持实时更新和删除行,以支持延迟到达的数据和数据 2023-05-16 大数据 #Hadoop #Kudu #HDFS
hive数据格式和压缩格式(orcfile、zlib、snappy、行储存、列储存) 1.Hive数据格式和压缩格式1.1 数据格式1.1.1 行储存和列储存 行储存的特点:查询满足条件的一整行(所有列)数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需要找到其中一个值,其余的值都在相邻地方,所以此时行存储查询的速度更快。 列存储的特点: 因为每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大大减少读取的数据量;每个字段的数据类型一定是相同的,列式存 2023-03-17 大数据 #大数据 #Hadoop #Hive
PostgreSQL中删除数据库时出现“There are 2 other sessions using the database”报错 1.问题描述PostgreSQL、GreenPlum中删除数据库时出现如下报错。 ERROR: database "cgq_test" is being accessed by other users DETAIL:There are 2 other sessions using the database. 2.问题原因 当前有其他连接在使用该数据库。 3.解决方案 执行如下命令,断开mc 2023-03-08 大数据 > 数仓 #GreenPlum #GP #大数据 #数仓 #PostgreSQL
Python使用pymysql模块的executemany()方法批量插入数据 提高Mysql数据库写入效率 首先,我们建立如下的数据库,用于后续的测试: CREATE TABLE `test` ( `id` bigint NOT NULL , `random_value` bigint NULL , PRIMARY KEY (`id`) ); 列名 类型 id(主键) bigint random_value bigint 随机生成20000条数据,用于后续测试: 注意: 2023-02-03 开发 #MySQL #Python #批量插入
CentOS7 升级安装OpenSSL 1.1.1 关于OpenSSL,在默认的CentOS7 版本为openssl-1.0.2的版本,但是在有些情况,需要较高版本的OpenSSL怎么办,只能手动编译了。接下来给大家讲解如何在CentOS7下升级安装OpenSSL 1.1.1,闲话少说,上真货吧。 一、查看版本信息在安装前,我们查看一下当前版本等信息。 # 查看当前OpenSSL的版本 openssl version # 查看OpenSSL的安 2023-01-31 运维 #CentOS #OpenSSL
Greenplum清理垃圾、修改存储模式(行存储改列存储)平滑方法 1.背景 在使用Greenplum的过程中,如果业务会经常对数据进行更新,删除,插入,可能导致数据出现膨胀。 用户在建表的时候,存储模式选择不当,但是业务已经运行了一段时间,表里面已经写入了大量的数据。 用户在建表的时候,分布键选得不对,但是业务已经运行了一段时间,表里面已经写入了大量的数据。 用户在建表的时候表分区做得不对,但是业务已经运行了一段时间,表里面已经写入了大量的数据。 数据分区在初 2022-12-22 大数据 > 数仓 #GreenPlum #GP #PostgreSQL
Python3 Snowflake算法实现不重复的分布式ID Python3 Snowflake算法实现不重复的分布式ID import time # 64位ID的划分 WORKER_ID_BITS = 5 DATACENTER_ID_BITS = 5 SEQUENCE_BITS = 12 # 最大取值计算 MAX_WORKER_ID = -1 ^ (-1 << WORKER_ID_BITS) # 2**5-1 0b11111 MAX 2022-12-19 开发 #Python3 #Snowflake #分布式ID
Greenplum常用给用户授权语句 1.创建用户并修改密码-- 创建用户并设置密码为123456 create role username with login password '123456'; -- 修改用户密码 alter role username with password '123456'; -- username:用户名 2.给用户schema的所有权限-- 创建数据库 crea 2022-12-08 大数据 > 数据库 #数仓 #Grennplum #SQL #PostgreSQL #数据仓库
Greenplum 列存表(AO表)的膨胀和垃圾检查与空间收缩 1.Greenplum产生垃圾空间说明Greenplum支持行储存(HEAP储存)与列(append-only)储存,对于AO存储,虽然是appendonly,但实际上GP是支持DELETE和UPDATE的,被删除或更新的行,通过BITMAP来标记删除与修改。AO存储是块级组织,当一个块内的数据大部分都被删除或更新掉时,扫描它浪费的成本实际上是很高的。而PostgreSQL是通过HOT技术以及au 2022-12-08 大数据 > 数据库 #数仓 #Grennplum #SQL #PostgreSQL #数据仓库
Greenplum/PostgreSQL中数据表数据去重的几种方法 GP主要用于数据仓库领域,在GP数据库中,如果由于ETL重复跑数导致数据重复的话,就需要进行去重复操作。 一种方法是把某一时间段的数据全部删掉,然后重新跑数据,这样其实工作量也比较大,需要补数据,重跑ETL。 另一种方法就是把重复的数据删掉就行,本文就是针对Greenplum分布式数据库如何进行去重复删除操作。 对于在Postgresql中,唯一确定一行的位置的是用ctid,可以用这个 2022-12-06 大数据 > 数据库 #Grennplum #SQL #PostgreSQL