AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / unix / 问题

问题[split](unix)

Martin Hope
sunknudsen
Asked: 2022-02-23 08:48:31 +0800 CST

如何有效地将大型数据集归档和压缩成部分?

  • 0

目前使用以下模型,但需要双倍的磁盘空间来恢复压缩存档,因为必须先将所有部分通过管道传输到 tar,然后才能删除它们。

$ COPYFILE_DISABLE=true tar \
  --create \
  --directory ~/data/dataset \
  --use-compress-program lz4 \
  --verbose \
  . | \
  split \
  --bytes 10G \
  --numeric-suffixes \
  - \
  dataset.tar.lz4.part
$ cat dataset.tar.lz4.part* | \
  tar \
  --extract \
  --directory ~/data/dataset \
  --use-compress-program lz4 \
  --verbose

有没有更有效的模型,可以在解压缩时删除部分 FIFO(先进先出)?

tar split
  • 1 个回答
  • 105 Views
Martin Hope
hsuk
Asked: 2019-12-20 14:29:35 +0800 CST

拆分在bash中表现得很奇怪

  • 0

尝试将 split 与 inotifywait 一起使用,这基本上会在从 ftp-server 创建文件时拆分文件。

#!/bin/bash

TARGET=/home/test-directory/incoming
SPLITTED=/home/test-directory/incoming/splitted
PROCESSED=/home/test-directory/incoming/processed
LOGFILE=/var/log/inotify-ftp.log

inotifywait -m -e create -e moved_to --format "%f" $TARGET \
        | while read FILENAME
                do
                        echo Detected $FILENAME >> $LOGFILE
                        echo Splitting $FILENAME >> $LOGFILE
                        split -d -l 1000 "$TARGET/$FILENAME" "$SPLITTED/$FILENAME"
                        #/usr/bin/split -d -l 1000 /home/test-directory/incoming/test-file.csv /home/test-directory/incoming/splitted/test-file.csv
                        mv "$TARGET/$FILENAME" "$PROCESSED/$FILENAME"
                        echo Completed splitting $FILENAME >> $LOGFILE
                done

因此,以下代码在单独执行时可以正常工作。上面的脚本应该做同样的事情,但是它创建了一个只有几百行的第一个拆分文件。

#/usr/bin/split -d -l 1000 /home/test-directory/incoming/test-file.csv /home/test-directory/incoming/splitted/test-file.csv

任何想法,发生了什么?

bash split
  • 2 个回答
  • 57 Views
Martin Hope
Andrej
Asked: 2019-12-17 22:41:09 +0800 CST

使用 csplit (或类似工具)将文件拆分为 n 个文件

  • 0

我有一个具有以下模式的大文件:

ABC
line 1
line 2
line 3
ABC
line 1
line 2
ABC
line1
ABC
line 1
line 3

使用csplit工具,我可以根据/ABC/模式将上面的文件拆分为 4 个子文件:

csplit -z input.txt /ABC/ {*}

我想知道如何手动指定所需输出文件的数量。

split csplit
  • 1 个回答
  • 378 Views
Martin Hope
darxmurf
Asked: 2019-06-29 03:12:38 +0800 CST

将长 grep 模式拆分为多行

  • 3

为了使我的脚本更具可读性,我正在尝试拆分我的长 grep 模式。那可能吗?

示例,在 bash 脚本中,而不是这条长线

smartctl -a /dev/sda | grep -Ei "Spin_Retry_Count|Calibration_Retry_Count|Reallocated_Event_Count|Offline_Uncorrectable|Reallocated_Sector_Ct|Current_Pending_Sector|CRC_Error_Count|Multi_Zone_Error_Rate|Temperature|CRC_Error_Count|Runtime_Bad_Block|Erase_Fail_Count|Program_Fail_C|End-to-End_Error" | awk '{print $2" "$10}')

我想分成类似的东西,使事情更具可读性

smartctl -a /dev/sda | grep -Ei "Spin_Retry_Count|"\
                                   "Calibration_Retry_Count|"\
                                   "Reallocated_Event_Count|"\
                                   "Offline_Uncorrectable|"\
                                   "Reallocated_Sector_Ct|"\
                                   "Current_Pending_Sector|"\
                                   "CRC_Error_Count|"\
                                   "Multi_Zone_Error_Rate|"\
                                   "Temperature|"\
                                   "CRC_Error_Count|"\
                                   "Runtime_Bad_Block|"\
                                   "Erase_Fail_Count|"\
                                   "Program_Fail_C|"\
                                   "End-to-End_Error" | awk '{print $2" "$10}')
grep split
  • 1 个回答
  • 841 Views
Martin Hope
fedora
Asked: 2019-05-05 10:15:29 +0800 CST

拆分具有自定义名称和大小的文本文件

  • 0

我使用 Debian,我有一个文本文件,我想将其拆分为几个具有特定后缀名称和大小的文件。我想将该文件拆分为 n 块因此,我应该使用 -n 选项。如何使用 split 命令执行此操作?谢谢

split
  • 1 个回答
  • 1297 Views
Martin Hope
kadekai
Asked: 2019-03-04 05:06:02 +0800 CST

拆分 Tmux 窗口模拟 vim 的 nosplitbelow 和 nosplitright 行为

  • 0

Tmux 具有正常的键绑定来水平和垂直拆分终端。但它会在当前活动窗格的右侧和下方拆分。有没有办法拆分当前活动窗格,以便新窗格在当前活动窗格的左侧和上方生成?

tmux split
  • 1 个回答
  • 87 Views
Martin Hope
Katleen
Asked: 2019-02-05 04:43:35 +0800 CST

使用循环将文件拆分为不同的记录并为文件指定新名称

  • 2

我有一个大文件(800.000 条记录),我想将其拆分为每个 20.000 条记录的不同文件。这个我可以,但我的下一个问题是我想知道是否可以自动生成新文件?

示例:file1 包含 800.000 条记录。首先,我从中获取 20000 条记录并移至另一个文件,然后删除\r字符。

sed -n '1,20000p;20001q'  file1 > file1_1
sed -e 's/\r//g' file1_1 > file1

是否可以循环执行某些操作?还是我必须写 40 次?

记录的数量是可变的,今天它包含 800.000 条记录,但明天它可以包含 812.321 条记录中的 789.123 条。我必须用 sed 命令给出一个“结束编号”吗?

谢谢大家的答案!!

sed split
  • 2 个回答
  • 979 Views
Martin Hope
Adel M.
Asked: 2019-01-06 17:01:16 +0800 CST

如何拆分具有数字名称的文件?

  • 2

我正在尝试将文本文件拆分为 1024 行的文件,所以我split使用-d开关运行:

split -d -l 300 ./list.lst

我得到了一些奇怪的名字:它们以开头,x文件名从 跳到. 我希望文件这样命名:x89x9000

1.lst
2.lst
3.lst
...

谢谢。

linux split
  • 1 个回答
  • 6493 Views
Martin Hope
Evan Carroll
Asked: 2018-08-27 23:49:07 +0800 CST

基于行的大小分块?[复制]

  • -1
这个问题在这里已经有了答案:
根据大小拆分文件,但要确保它以换行符结尾 (1 answer)
4年前关闭。

Github 将文件上传限制为 100mb。这对公共数据来说是不幸的。我知道我可以用dd. 我想做的是将它们全部拆分成 99MB 的文件,但问题是,我不想拆分成一行——只有一个换行符。有没有一种简单的方法可以根据文件的大小将文件分成块,而不是中线。

例子

#/bin/sh
for i in $(seq 1 1000000); do
  echo "This is a test sentence." >> file
done;

现在file是26MB。我希望将该文件拆分为 1 MB 的块,但从不拆分任何地方,只拆分一个行边界 ( \n)。

split
  • 1 个回答
  • 126 Views
Martin Hope
Trong Nhan Nguyen
Asked: 2018-06-12 03:24:15 +0800 CST

基于花括号将一条线分成许多部分?

  • 0

我有一个 1 行文件,其格式为:

{port1 dev1 M1 s} {port1 dev1 M1 s} {port3 dev2 M1 g} {port1 dev1 M1 d} {port1 dev1 M3 g} ...

我想像这样将这一行和 cat 拆分为基于大括号 {} 的输出文件。我怎么做 ?

port1 dev1 M1 s
port1 dev1 M1 s 
port3 dev2 M1 g 
port1 dev1 M1 d 
port1 dev1 M3 g
shell-script split
  • 9 个回答
  • 534 Views

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    模块 i915 可能缺少固件 /lib/firmware/i915/*

    • 3 个回答
  • Marko Smith

    无法获取 jessie backports 存储库

    • 4 个回答
  • Marko Smith

    如何将 GPG 私钥和公钥导出到文件

    • 4 个回答
  • Marko Smith

    我们如何运行存储在变量中的命令?

    • 5 个回答
  • Marko Smith

    如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域?

    • 3 个回答
  • Marko Smith

    dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

    • 2 个回答
  • Marko Smith

    如何从 systemctl 服务日志中查看最新的 x 行

    • 5 个回答
  • Marko Smith

    Nano - 跳转到文件末尾

    • 8 个回答
  • Marko Smith

    grub 错误:你需要先加载内核

    • 4 个回答
  • Marko Smith

    如何下载软件包而不是使用 apt-get 命令安装它?

    • 7 个回答
  • Martin Hope
    user12345 无法获取 jessie backports 存储库 2019-03-27 04:39:28 +0800 CST
  • Martin Hope
    Carl 为什么大多数 systemd 示例都包含 WantedBy=multi-user.target? 2019-03-15 11:49:25 +0800 CST
  • Martin Hope
    rocky 如何将 GPG 私钥和公钥导出到文件 2018-11-16 05:36:15 +0800 CST
  • Martin Hope
    Evan Carroll systemctl 状态显示:“状态:降级” 2018-06-03 18:48:17 +0800 CST
  • Martin Hope
    Tim 我们如何运行存储在变量中的命令? 2018-05-21 04:46:29 +0800 CST
  • Martin Hope
    Ankur S 为什么 /dev/null 是一个文件?为什么它的功能不作为一个简单的程序来实现? 2018-04-17 07:28:04 +0800 CST
  • Martin Hope
    user3191334 如何从 systemctl 服务日志中查看最新的 x 行 2018-02-07 00:14:16 +0800 CST
  • Martin Hope
    Marko Pacak Nano - 跳转到文件末尾 2018-02-01 01:53:03 +0800 CST
  • Martin Hope
    Kidburla 为什么真假这么大? 2018-01-26 12:14:47 +0800 CST
  • Martin Hope
    Christos Baziotis 在一个巨大的(70GB)、一行、文本文件中替换字符串 2017-12-30 06:58:33 +0800 CST

热门标签

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve