大帅小站
  • 首页
  • 归档
  • 分类
  • 标签
  • 友链
  • 关于
kudu hdfs 数据分层 灵活存储

kudu hdfs 数据分层 灵活存储

转载自:海底苍鹰 网上购物,很多人只会看最近三个月,或者半年的订单,更早的历史订单就很少有人关注了。这种场景还是挺适合kudu+hdfs. Apache Kudu旨在快速分析、快速变化的数据。Kudu提供快速插入/更新和高效列扫描的组合,以在单个存储层上实现多个实时分析工作负载。因此,Kudu非常适合作为存储需要实时查询的数据的仓库。此外,Kudu支持实时更新和删除行,以支持延迟到达的数据和数据
2023-05-16
大数据
#Hadoop #Kudu #HDFS
hive数据格式和压缩格式(orcfile、zlib、snappy、行储存、列储存)

hive数据格式和压缩格式(orcfile、zlib、snappy、行储存、列储存)

1.Hive数据格式和压缩格式1.1 数据格式1.1.1 行储存和列储存 行储存的特点:查询满足条件的一整行(所有列)数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需要找到其中一个值,其余的值都在相邻地方,所以此时行存储查询的速度更快。 列存储的特点: 因为每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大大减少读取的数据量;每个字段的数据类型一定是相同的,列式存
2023-03-17
大数据
#大数据 #Hadoop #Hive
PostgreSQL中删除数据库时出现“There are 2 other sessions using the database”报错

PostgreSQL中删除数据库时出现“There are 2 other sessions using the database”报错

1.问题描述PostgreSQL、GreenPlum中删除数据库时出现如下报错。 ERROR: database "cgq_test" is being accessed by other users DETAIL:There are 2 other sessions using the database. 2.问题原因 当前有其他连接在使用该数据库。 3.解决方案 执行如下命令,断开mc
2023-03-08
大数据 > 数仓
#GreenPlum #GP #大数据 #数仓 #PostgreSQL
Python使用pymysql模块的executemany()方法批量插入数据 提高Mysql数据库写入效率

Python使用pymysql模块的executemany()方法批量插入数据 提高Mysql数据库写入效率

首先,我们建立如下的数据库,用于后续的测试: CREATE TABLE `test` ( `id` bigint NOT NULL , `random_value` bigint NULL , PRIMARY KEY (`id`) ); 列名 类型 id(主键) bigint random_value bigint 随机生成20000条数据,用于后续测试: 注意:
2023-02-03
开发
#MySQL #Python #批量插入
CentOS7 升级安装OpenSSL 1.1.1

CentOS7 升级安装OpenSSL 1.1.1

关于OpenSSL,在默认的CentOS7 版本为openssl-1.0.2的版本,但是在有些情况,需要较高版本的OpenSSL怎么办,只能手动编译了。接下来给大家讲解如何在CentOS7下升级安装OpenSSL 1.1.1,闲话少说,上真货吧。 一、查看版本信息在安装前,我们查看一下当前版本等信息。 # 查看当前OpenSSL的版本 openssl version # 查看OpenSSL的安
2023-01-31
运维
#CentOS #OpenSSL
Greenplum清理垃圾、修改存储模式(行存储改列存储)平滑方法

Greenplum清理垃圾、修改存储模式(行存储改列存储)平滑方法

1.背景 在使用Greenplum的过程中,如果业务会经常对数据进行更新,删除,插入,可能导致数据出现膨胀。 用户在建表的时候,存储模式选择不当,但是业务已经运行了一段时间,表里面已经写入了大量的数据。 用户在建表的时候,分布键选得不对,但是业务已经运行了一段时间,表里面已经写入了大量的数据。 用户在建表的时候表分区做得不对,但是业务已经运行了一段时间,表里面已经写入了大量的数据。 数据分区在初
2022-12-22
大数据 > 数仓
#GreenPlum #GP #PostgreSQL
Python3 Snowflake算法实现不重复的分布式ID

Python3 Snowflake算法实现不重复的分布式ID

Python3 Snowflake算法实现不重复的分布式ID import time # 64位ID的划分 WORKER_ID_BITS = 5 DATACENTER_ID_BITS = 5 SEQUENCE_BITS = 12 # 最大取值计算 MAX_WORKER_ID = -1 ^ (-1 << WORKER_ID_BITS) # 2**5-1 0b11111 MAX
2022-12-19
开发
#Python3 #Snowflake #分布式ID
Greenplum常用给用户授权语句

Greenplum常用给用户授权语句

1.创建用户并修改密码-- 创建用户并设置密码为123456 create role username with login password '123456'; -- 修改用户密码 alter role username with password '123456'; -- username:用户名 2.给用户schema的所有权限-- 创建数据库 crea
2022-12-08
大数据 > 数据库
#数仓 #Grennplum #SQL #PostgreSQL #数据仓库
Greenplum 列存表(AO表)的膨胀和垃圾检查与空间收缩

Greenplum 列存表(AO表)的膨胀和垃圾检查与空间收缩

1.Greenplum产生垃圾空间说明Greenplum支持行储存(HEAP储存)与列(append-only)储存,对于AO存储,虽然是appendonly,但实际上GP是支持DELETE和UPDATE的,被删除或更新的行,通过BITMAP来标记删除与修改。AO存储是块级组织,当一个块内的数据大部分都被删除或更新掉时,扫描它浪费的成本实际上是很高的。而PostgreSQL是通过HOT技术以及au
2022-12-08
大数据 > 数据库
#数仓 #Grennplum #SQL #PostgreSQL #数据仓库
Greenplum/PostgreSQL中数据表数据去重的几种方法

Greenplum/PostgreSQL中数据表数据去重的几种方法

GP主要用于数据仓库领域,在GP数据库中,如果由于ETL重复跑数导致数据重复的话,就需要进行去重复操作。 一种方法是把某一时间段的数据全部删掉,然后重新跑数据,这样其实工作量也比较大,需要补数据,重跑ETL。 另一种方法就是把重复的数据删掉就行,本文就是针对Greenplum分布式数据库如何进行去重复删除操作。 对于在Postgresql中,唯一确定一行的位置的是用ctid,可以用这个
2022-12-06
大数据 > 数据库
#Grennplum #SQL #PostgreSQL
1234…7

搜索

Hexo Fluid
总访问量 次 总访客数 人
桂ICP备20003912号-3 | police-icon 桂公网安备45010502000963