大帅小站

trzsz终端文件传输利器

trzsz终端文件传输利器

1.简介trzsz 是一个简单的文件传输工具，类似于 lrzsz ( rz / sz )，并与 tmux 兼容。 2.引言用过 rz、sz 上传和下载文件的，都知道非常的方便。那么，在 Linux 的原生终端，在 Mac 上的原生终端，在 Windows 中的 cmd 和 PowerShell 等，又能不能像 rz / sz 那样方便地传文件呢？ 3.trzsz用 https://github

2023-05-30

运维

#rzsz #终端

Spark RDD基础编程

Spark RDD基础编程

1.RDD创建1.1 从集合（内存）中创建 RDD从集合中创建RDD，Spark主要提供了两个方法：parallelize和makeRDD 从底层代码实现来讲，makeRDD方法其实就是parallelize方法 // 创建 Spark 运行配置对象 val sparkConf = new SparkConf().setMaster("local[*]&

2023-05-28

大数据

#大数据 #Spark

kudu hdfs 数据分层灵活存储

kudu hdfs 数据分层灵活存储

转载自：海底苍鹰网上购物，很多人只会看最近三个月，或者半年的订单，更早的历史订单就很少有人关注了。这种场景还是挺适合kudu+hdfs. Apache Kudu旨在快速分析、快速变化的数据。Kudu提供快速插入/更新和高效列扫描的组合，以在单个存储层上实现多个实时分析工作负载。因此，Kudu非常适合作为存储需要实时查询的数据的仓库。此外，Kudu支持实时更新和删除行，以支持延迟到达的数据和数据

2023-05-16

大数据

#Hadoop #Kudu #HDFS

hive数据格式和压缩格式（orcfile、zlib、snappy、行储存、列储存）

hive数据格式和压缩格式（orcfile、zlib、snappy、行储存、列储存）

1.Hive数据格式和压缩格式1.1 数据格式1.1.1 行储存和列储存行储存的特点：查询满足条件的一整行（所有列）数据的时候，列存储则需要去每个聚集的字段找到对应的每个列的值，行存储只需要找到其中一个值，其余的值都在相邻地方，所以此时行存储查询的速度更快。列存储的特点：因为每个字段的数据聚集存储，在查询只需要少数几个字段的时候，能大大减少读取的数据量；每个字段的数据类型一定是相同的，列式存

2023-03-17

大数据

#大数据 #Hadoop #Hive

PostgreSQL中删除数据库时出现“There are 2 other sessions using the database”报错

PostgreSQL中删除数据库时出现“There are 2 other sessions using the database”报错

1.问题描述PostgreSQL、GreenPlum中删除数据库时出现如下报错。 ERROR: database "cgq_test" is being accessed by other users DETAIL：There are 2 other sessions using the database. 2.问题原因当前有其他连接在使用该数据库。 3.解决方案执行如下命令，断开mc

2023-03-08

大数据 > 数仓

#GreenPlum #GP #大数据 #数仓 #PostgreSQL

Python使用pymysql模块的executemany()方法批量插入数据提高Mysql数据库写入效率

Python使用pymysql模块的executemany()方法批量插入数据提高Mysql数据库写入效率

首先，我们建立如下的数据库，用于后续的测试： CREATE TABLE `test` ( `id` bigint NOT NULL , `random_value` bigint NULL , PRIMARY KEY (`id`) ); 列名类型 id(主键) bigint random_value bi

2023-02-03

开发

#MySQL #Python #批量插入

CentOS7 升级安装OpenSSL 1.1.1

CentOS7 升级安装OpenSSL 1.1.1

关于OpenSSL，在默认的CentOS7 版本为openssl-1.0.2的版本，但是在有些情况，需要较高版本的OpenSSL怎么办，只能手动编译了。接下来给大家讲解如何在CentOS7下升级安装OpenSSL 1.1.1，闲话少说，上真货吧。一、查看版本信息在安装前，我们查看一下当前版本等信息。 # 查看当前OpenSSL的版本 openssl version # 查看OpenSSL的安

2023-01-31

运维

#OpenSSL #CentOS

Greenplum清理垃圾、修改存储模式(行存储改列存储)平滑方法

Greenplum清理垃圾、修改存储模式(行存储改列存储)平滑方法

1.背景在使用Greenplum的过程中，如果业务会经常对数据进行更新，删除，插入，可能导致数据出现膨胀。用户在建表的时候，存储模式选择不当，但是业务已经运行了一段时间，表里面已经写入了大量的数据。用户在建表的时候，分布键选得不对，但是业务已经运行了一段时间，表里面已经写入了大量的数据。用户在建表的时候表分区做得不对，但是业务已经运行了一段时间，表里面已经写入了大量的数据。数据分区在初

2022-12-22

大数据 > 数仓

#GreenPlum #GP #PostgreSQL

Python3 Snowflake算法实现不重复的分布式ID

Python3 Snowflake算法实现不重复的分布式ID

Python3 Snowflake算法实现不重复的分布式ID import time # 64位ID的划分 WORKER_ID_BITS = 5 DATACENTER_ID_BITS = 5 SEQUENCE_BITS = 12 # 最大取值计算 MAX_WORKER_ID = -1 ^ (-1 << WORKER_ID_BITS)

2022-12-19

开发

#Python3 #Snowflake #分布式ID

Greenplum常用给用户授权语句

Greenplum常用给用户授权语句

1.创建用户并修改密码-- 创建用户并设置密码为123456 create role username with login password '123456'; -- 修改用户密码 alter role username with password '123456'; -- username：用户名 2.给用户schema的所有权限-- 创建数据库 crea

2022-12-08

大数据 > 数据库

#数仓 #Grennplum #SQL #PostgreSQL #数据仓库