大帅小站

csv超大文件拆分sh脚本

csv超大文件拆分sh脚本

这个版本通过参数化设计增强了脚本的灵活性，同时保持了原有高效处理大文件的特性，能够适应各种实际数据处理场景的需求。以下是支持参数输入的增强版脚本，支持灵活指定输入输出路径和行数限制：#!/bin/bash # 使用方法函数 usage() { echo "用法: $0 [-i 输入文件] [-o 输出前缀] [-e Excel最大行数]" echo "示例: $0

2025-05-05

数据

#Linux #Shell #CSV

CentOS7 编译安装Python3.10

1.安装openssl 1.1.1kcurl -O https://ftp.openssl.org/source/openssl-1.1.1k.tar.gz \ && tar xf openssl*.gz \ && cd openssl* \ && ./config --prefix=/usr/local/openssl &&

2024-10-17

运维

#CentOS #Python

使用pt-kill为MySQL保驾护航

使用pt-kill为MySQL保驾护航

1.前言 192.168.10.1 服务端-数据发送端（被同步目录/www/） 192.168.10.2 客户端-数据接收端（同步服务端的目录到本机的/data/www/）服务端/data/ftp目录下的文件或目录权限等发生改变，不管是增删改，都同步到客户端指定目录，实现实时同步。 2.部署环境搭建参考教程 2.1 接收端(192.168.10.2)2.1.1 安装相关服务# 安装rs

2024-07-17

运维

#CentOS #rsync #实时同步

kafka集群搭建指北-Broker端参数

kafka集群搭建指北-Broker端参数

1.配置存储信息首先 Broker 是需要配置存储信息的，即 Broker 使用哪些磁盘。那么针对存储信息的重要参数有以下这么几个： log.dirs：这是非常重要的参数，指定了 Broker 需要使用的若干个文件目录路径。要知道这个参数是没有默认值的，这说明什么？这说明它必须由你亲自指定。 log.dir：注意这是 dir，结尾没有 s，说明它只能表示单个路径，它是补充上一个参数用的。这两

2024-07-16

大数据

#CentOS #Kafka #集群

Canal增量解析MySQL(阿里云 RDS)并解决本地binlog被清理后自动下载oss上的binlog

Canal增量解析MySQL(阿里云 RDS)并解决本地binlog被清理后自动下载oss上的binlog

1.问题介绍可参考github issue描述： https://github.com/alibaba/canal/issues/727 如果用户使用binlog解析工具，链接aliyun RDS需要解决几个方面的问题：账号权限问题阿里云 RDS早期控制台创建的账号，默认没有binlog dump需要的权限，目前创建的账号默认自带了权限，不需要做任何额外的处理，是否包含必须的权限，也可以直

2024-04-01

数据库 > 大数据

#MySQL #大数据 #阿里云 #Canal

Samba服务配置

Samba服务配置

1.Samba简介1987年，微软公司和英特尔公司共同制定了SMB（Server Messages Block，服务器消息块）协议，旨在解决局域网内的文件或打印机等资源的共享问题，这也使得在多个主机之间共享文件变得越来越简单。到了1991年，当时还在读大学的Tridgwell为了解决Linux系统与Windows系统之间的文件共享问题，基于SMB协议开发出了SMBServer服务程序。这是一款开源

2023-10-18

运维

#Linux #文件共享 #Samba

Golang语言操作RabbitMQ

Golang语言操作RabbitMQ

1.准备1.1 安装包依赖go get "github.com/streadway/amqp" 1.2 官方文档https://github.com/rabbitmq/rabbitmq-tutorials/tree/master/go 2.普通模式2.1 生产者package main import ( "fmt" "log" "os" "strings"

2023-08-14

开发

#Golang #Go #消息队列 #RabbitMQ

Golang语言操作Kafka

Golang语言操作Kafka

1.准备1.1 前言 Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据，具有高性能、持久化、多副本备份、横向扩展等特点。本文介绍了如何使用Go语言发送和接收kafka消息。 1.2 saramaGo语言中连接kafka使用第三方库 sarama GitHub 1.3 安装包依赖go get "github.com/Shopify/sarama"

2023-08-14

开发

#Kafka #Golang #Go #消息队列

trzsz终端文件传输利器

trzsz终端文件传输利器

1.简介trzsz 是一个简单的文件传输工具，类似于 lrzsz ( rz / sz )，并与 tmux 兼容。 2.引言用过 rz、sz 上传和下载文件的，都知道非常的方便。那么，在 Linux 的原生终端，在 Mac 上的原生终端，在 Windows 中的 cmd 和 PowerShell 等，又能不能像 rz / sz 那样方便地传文件呢？ 3.trzsz用 https://github

2023-05-30

运维

#rzsz #终端

Spark RDD基础编程

Spark RDD基础编程

1.RDD创建1.1 从集合（内存）中创建 RDD从集合中创建RDD，Spark主要提供了两个方法：parallelize和makeRDD 从底层代码实现来讲，makeRDD方法其实就是parallelize方法 // 创建 Spark 运行配置对象 val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Create

2023-05-28

大数据

#大数据 #Spark