AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / ubuntu / 问题 / 28706
In Process
Alexander Engelhardt
Alexander Engelhardt
Asked: 2011-03-03 03:59:40 +0800 CST2011-03-03 03:59:40 +0800 CST 2011-03-03 03:59:40 +0800 CST

按条目拆分文本文件

  • 772


我正在尝试分析一个巨大的文本文件(1.6GB),其数据行如下所示:

20090118025859 -2.400000 78.100000 1023.200000 0.000000
20090118025900 -2.500000 78.100000 1023.200000 0.000000
20090118025901 -2.400000 78.100000 1023.200000 0.000000

我什至不知道有多少行。但我正在尝试按日期拆分文件。左边的数字是一个时间戳(这些行是从 2009 年 1 月 18 日开始的)。
如何根据日期将此文件分成几部分?

我所知道的一切都是grep file '20090118*' > data20090118.dat,但肯定有一种方法可以一次完成所有日期,对吗?

每个日期的条目数不同,因此使用split常量将不起作用。

提前致谢,
亚历克斯

scripts
  • 3 3 个回答
  • 1123 Views

3 个回答

  • Voted
  1. htorque
    2011-03-03T05:12:54+08:002011-03-03T05:12:54+08:00

    假设文件已排序并且日期始终存在,这应该有效:

    #!/bin/bash
    
    base_dir='./'    
    
    while read line; do
        date="${line:0:8}"
        echo "$line" >> "$base_dir$date.txt"
    done < "$1"
    

    [另存为my_splitter,通过运行使其可执行chmod +x my_splitter,然后像这样调用它./my_splitter input_file]

    它逐行读取输入文件,提取日期并使用它将具有相同日期的行附加到同一文件中。

    base_dir是目标目录,文件格式为<date>.txt. 注意:现有文件不会被覆盖,由于>>重定向器会追加新行,因此最好确保目标目录不包含任何形式的文件<date>.txt。

    • 6
  2. Arcege
    2011-03-03T07:10:58+08:002011-03-03T07:10:58+08:00

    这可能对你有用:

    awk '{d=substr($1, 1, 8); fn = "data" d ".dat"; print $0 >> fn}' hugefile
    
    • 1
  3. user unknown
    2011-03-03T08:35:31+08:002011-03-03T08:35:31+08:00

    我会使用 {x..y},也许是 y、m、d 级联、shema:

    for d in {18..19} ; do grep 200901$d datadata; echo; done 
    20090118025859 -2.400000 78.100000 1023.200000 0.000000
    20090118025900 -2.500000 78.100000 1023.200000 0.000000
    20090118025901 -2.400000 78.100000 1023.200000 0.000000
    
    20090119025859 -2.400000 78.100000 1023.200000 0.000000
    20090119025900 -2.500000 78.100000 1023.200000 0.000000
    20090119025901 -2.400000 78.100000 1023.200000 0.000000
    
    • 0

相关问题

  • 如何在 Nautilus 中管理保存的完整网页及其目录(例如 n.html 和 n_files)

  • 如何每 5 秒运行一次脚本?

  • 如何将必须从其自己的目录中运行的程序添加到面板或主菜单?

  • 如何编写 shell 脚本来安装应用程序列表?

  • Mac OS X Automator 的替代品?

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    如何运行 .sh 脚本?

    • 16 个回答
  • Marko Smith

    如何安装 .tar.gz(或 .tar.bz2)文件?

    • 14 个回答
  • Marko Smith

    我需要什么命令来解压缩/提取 .tar.gz 文件?

    • 8 个回答
  • Marko Smith

    如何列出所有已安装的软件包

    • 24 个回答
  • Marko Smith

    无法锁定管理目录 (/var/lib/dpkg/) 是另一个进程在使用它吗?

    • 25 个回答
  • Marko Smith

    如何使用命令行将用户添加为新的 sudoer?

    • 7 个回答
  • Marko Smith

    更改文件夹权限和所有权

    • 9 个回答
  • Martin Hope
    EmmyS 我需要什么命令来解压缩/提取 .tar.gz 文件? 2011-02-09 14:50:41 +0800 CST
  • Martin Hope
    Ivan 如何列出所有已安装的软件包 2010-12-17 18:08:49 +0800 CST
  • Martin Hope
    La Ode Adam Saputra 无法锁定管理目录 (/var/lib/dpkg/) 是另一个进程在使用它吗? 2010-11-30 18:12:48 +0800 CST
  • Martin Hope
    David Barry 如何从命令行确定目录(文件夹)的总大小? 2010-08-06 10:20:23 +0800 CST
  • Martin Hope
    jfoucher “以下软件包已被保留:”为什么以及如何解决? 2010-08-01 13:59:22 +0800 CST
  • Martin Hope
    David Ashford 如何删除 PPA? 2010-07-30 01:09:42 +0800 CST

热门标签

10.10 10.04 gnome networking server command-line package-management software-recommendation sound xorg

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve