AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / unix / 问题 / 762885
Accepted
dante_t
dante_t
Asked: 2023-12-02 13:45:24 +0800 CST2023-12-02 13:45:24 +0800 CST 2023-12-02 13:45:24 +0800 CST

根据最新时间戳数据创建新的 CSV 文件

  • 772

我有一个脚本可以访问多个 dat 文件并根据前一天的数据生成 csv 文件。这些 DAT 文件根据来自各种仪器的数据每分钟更新一次。

脚本片段:

gawk -F, '

{ gsub(/"/,"") }

FNR==2{ 
        delete timestamp;                                     #This code was added
        start=strftime("%Y %m %d 00 00 00", systime()-172800);#to fix the
        for(min=0; min<1440; min++)                           #timestamp formatting
        timestamp[strftime("%F %H:%M", mktime(start)+min*60)] #issue from the input files.
     
        fname=FILENAME; 
        gsub(/Real_|_Table2.*\.dat$/,"", fname);

        $2="col1";
        $3="col2";
        $4="col3";
        $5="col4";
        
        if ( fname=="file1")        ID1="01";   
        else if ( fname=="file2")   ID1="02";
        else if ( fname=="file3")   ID1="03";
        else ID1="00";      
    
        hdr=$1 FS $2 FS $3 FS $4 FS $5;
         
        yday=strftime("%Y%m%d", systime()-86400);
        dirName=yday;
        system("mkdir -p "dirName); next
     }

(substr($1,1,16) in  timestamp){

        fname=FILENAME; 
        gsub(/Real_|_Table2.*\.dat$/,"", fname);

               cp=$1; gsub(/[-: ]|00$/, "", cp);
         if ( fname=="file2"|| fname=="file3")

         printf("%s%s,%.3f,%.3f,%.3f,%.3f\n", hdr ORS, $1, $3, $2, $4, $6)>(dirName"/"ID1"_"fname"_"cp".csv");
        else 
        printf("%s%s,%.3f,%.3f,%.3f,%.3f\n", hdr ORS, $1, $3, $5, "999")>(dirName"/"ID1"_"fname"_"cp".csv");

       close(dirName"/"ID1"_"fname"_"cp".csv");
       delete  timestamp[substr($1,1,16)] }

ENDFILE{ for (x in  timestamp){
             cpx=x; gsub(/[-: ]/, "", cpx);
             print hdr ORS x "-999,-999,-999,-999," >(dirName"/"ID1"_"fname"_"cpx".csv");
             
             close(dirName"/"ID1"_"fname"_"cpx".csv")
     }
}' *_Table2.dat 


我希望编辑脚本,以便它可以扫描 dat 文件以获取新数据,并仅为新数据创建 csv 文件。在当前格式中,脚本为 *.dat 文件(新文件或历史文件)中的每个时间戳创建 csv 文件。

示例输入文件(Real_file1_table2.dat):

"Data for Site1"
Timestamp,col1,col2,col3,col4
"2023-11-30 11:00:00",289233,0.3495333,0.2412115,333.2676
"2023-11-30 11:01:00",289234,1.035533,1.019842,344.1969

请注意,标头位于第 2 行 然后创建以下输出文件:

01_file1_202311301100.csv

01_file1_202311301101.csv

ETC..

csv 文件中包含的数据基于时间戳。

例如:

01_file1_202311301100.csv包含以下数据:

TIMESTAMP,col1,col2,col3,col4
2023/11/30 11:00,289233,0.349,0.241,333.267

01_file1_202311301101.csv包含以下数据:

TIMESTAMP,col1,col2,col3,col4
2023/11/30 11:01,289234,1.035,1.019,344.196

ETC。

请注意,这些 csv 文件中的数据四舍五入为 3 个浮点

第二次执行脚本时,Real_file1_table2.dat中现在包含以下数据:

"Data for Site1"
Timestamp,col1,col2,col3,col4
"2023-11-30 11:00:00",289233,0.3495333,0.2412115,333.2676
"2023-11-30 11:01:00",289234,1.035533,1.019842,344.1969
"2023-11-30 11:02:00",289235,0.7758334,0.7252186,17.75404
"2023-11-30 11:03:00",289236,0.7693,0.7103683,359.0702

我希望脚本仅为最新数据创建 csv 文件,即:

01_file1_202311301102.csv

01_file1_202311301103.csv

我不想重新创建已存在的 csv 文件。

因此,每当执行脚本时,它必须只为最新数据创建 csv 文件。

对你的帮助表示感谢

shell-script
  • 1 1 个回答
  • 86 Views

1 个回答

  • Voted
  1. Best Answer
    markp-fuso
    2023-12-02T23:51:15+08:002023-12-02T23:51:15+08:00

    假设:

    • 对于名为的输出文件,01_file1_202311301100.csv字符串'file1'来自输入文件名称中的第二个“_”分隔字段(例如,Real_file1_table2.dat)
    • OP的代码似乎为“昨天”创建了一个新的子目录,但这意味着我们不应该处理日期为“今天”的输入文件条目;为了这个答案,我将假设所有输入/输出文件都位于当前目录中;OP 可以扩展代码来寻址子目录以及如何处理“昨天”与“今天”
    • 唯一用双引号括起来的输入字段是第一个(逗号分隔)字段
    • 第一个字段将始终是格式"YYYY-MM-DD HH:MM:SS",否则我们忽略该行
    • 没有输入字段包含嵌入的换行符

    总体设计:

    • 确定输出文件的bash前缀 ( pfx)(根据输入文件的名称)
    • 确定bash“最后一个”输出文件的名称
    • 将pfx“最后一个”输出文件名传递给awk
    • 用于awk处理输入*.dat文件
    • 根据第一个字段的内容构建输出文件名(例如,2023-11-30 11:00:00变为202311301100)
    • 如果输出文件名小于“最后一个”输出文件名,那么这告诉我们输出文件已经存在,因此我们将忽略输入行
    • 如果输出文件名等于“最后一个”输出文件名,我们将继续生成一个新的输出文件(这应该解决日期时间值 - 例如: -在之前和之后2023-11-30 11:00添加到文件中的情况脚本*.dat的运行awk
    • 如果输出文件名大于“最后一个”输出文件名,则这告诉我们需要生成一个新的输出文件

    一种bash / awk方法:

    for datfile in *_table2.dat
    do
        [[ ! -f "${datfile}" ]] && break
    
        ############
        #### the following bash code needs to be run before each run of the awk script
    
        IFS='_' read -r _ pfx _ <<< "${datfile}"
    
        case "${pfx}" in
            file1)  pfx="01_${pfx}" ;;
            file2)  pfx="02_${pfx}" ;;    
            file3)  pfx="03_${pfx}" ;;
                *)  pfx="00_${pfx}" ;;
        esac
    
        last_file="${pfx}_000000000000.csv"
    
        for outfile in "${pfx}"_*.csv
        do
            [[ -f "${outfile}" ]] && last_file="${outfile}"
        done
    
        ############
        #### at this point we have:
        ####   1) the '##_file#' prefix for our new output files(s)
        ####   2) the name of the 'last' output file
    
        awk -v pfx="${pfx}" -v last_file="${last_file}" '
        BEGIN      { FS=OFS=","
                     hdr = "Timestamp,col1,col2,col3,col4"                    # define default header
                     regex = "^\"[0-9]{4}.*\"$"                               # 1st field regex: "YYYY..."
                   }
    
        $1 ~ regex { dt=$1                                                    # copy 1st field
                     gsub(/[^[:digit:]]/,"",dt)                               # strip out everything other than digits
                     dt = substr(dt,1,12)                                     # grab YYYY-MM-DD HH:MM which now looks like YYYYMMDDHHMM
    
                     if (dt != dt_prev) {                                     # if this is a new dt value
                        dt_prev = dt
                        printme = 1                                           # default to printing input lines to new output file
    
                        close(outfile)                                        # close previous output file
                        outfile = pfx "_" dt ".csv"                           # build new output file name
    
                        if ( outfile < last_file) {                           # if "less than" last file then we will skip
                           printf "WARNING: file exists: %s (skipping)\n", outfile
                           printme = 0
                        }
                        else
                        if ( outfile == last_file)                            # if "equal to" last file then overwrite
                           printf "WARNING: file exists: %s (overwriting)\n", outfile
                        else                                                  # else new output file is "greater than" last file
                            print hdr > outfile                               # print default header to our new output file
                     }
    
                     if (printme)                                             # if printme==1 then ...
                        print $0 > outfile                                    # print current line to output file
                   }
        ' "${datfile}"
    done
    

    针对 OP 的第一个版本运行Real_file1_table2.dat:

    $ awk ....
    
    $ head 01*csv
    ==> 01_file1_202311301100.csv <==
    Timestamp,col1,col2,col3,col4
    "2023-11-30 11:00:00",289233,0.3495333,0.2412115,333.2676
    
    ==> 01_file1_202311301101.csv <==
    Timestamp,col1,col2,col3,col4
    "2023-11-30 11:01:00",289234,1.035533,1.019842,344.1969
    

    为了测试“覆盖”逻辑,我们将更改 OP 的第二个版本,Real_file1_table2.dat如下所示:

    $ cat Real_file1_table2.2.dat
    Timestamp,col1,col2,col3,col4
    "2023-11-30 11:00:00",289233,0.3495333,0.2412115,333.2676
    "2023-11-30 11:01:00",289234,1.035533,1.019842,344.1969
    "2023-11-30 11:01:00",666666,0.7777777,0.8888888,17.99999    # another 2023-11-30 11:01 entry
    "2023-11-30 11:02:00",289235,0.7758334,0.7252186,17.75404
    "2023-11-30 11:03:00",289236,0.7693,0.7103683,359.0702
    

    针对这个新版本运行Real_file1_table2.dat:

    $ awk ...
    WARNING: file exists: 01_file1_202311301100.csv (skipping)
    WARNING: file exists: 01_file1_202311301101.csv (overwriting)
    
    $ head 01*csv
    ==> 01_file1_202311301100.csv <==
    Timestamp,col1,col2,col3,col4
    "2023-11-30 11:00:00",289233,0.3495333,0.2412115,333.2676
    
    ==> 01_file1_202311301101.csv <==
    "2023-11-30 11:01:00",289234,1.035533,1.019842,344.1969
    "2023-11-30 11:01:00",666666,0.7777777,0.8888888,17.99999
    
    ==> 01_file1_202311301102.csv <==
    Timestamp,col1,col2,col3,col4
    "2023-11-30 11:02:00",289235,0.7758334,0.7252186,17.75404
    
    ==> 01_file1_202311301103.csv <==
    Timestamp,col1,col2,col3,col4
    "2023-11-30 11:03:00",289236,0.7693,0.7103683,359.0702
    
    • 2

相关问题

  • 在awk中的两行之间减去相同的列

  • 打印文件行及其长度的脚本[关闭]

  • 通过命令的标准输出以编程方式导出环境变量[重复]

  • 按分隔符拆分并连接字符串问题

  • MySQL Select with function IN () with bash array

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    模块 i915 可能缺少固件 /lib/firmware/i915/*

    • 3 个回答
  • Marko Smith

    无法获取 jessie backports 存储库

    • 4 个回答
  • Marko Smith

    如何将 GPG 私钥和公钥导出到文件

    • 4 个回答
  • Marko Smith

    我们如何运行存储在变量中的命令?

    • 5 个回答
  • Marko Smith

    如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域?

    • 3 个回答
  • Marko Smith

    dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

    • 2 个回答
  • Marko Smith

    如何从 systemctl 服务日志中查看最新的 x 行

    • 5 个回答
  • Marko Smith

    Nano - 跳转到文件末尾

    • 8 个回答
  • Marko Smith

    grub 错误:你需要先加载内核

    • 4 个回答
  • Marko Smith

    如何下载软件包而不是使用 apt-get 命令安装它?

    • 7 个回答
  • Martin Hope
    user12345 无法获取 jessie backports 存储库 2019-03-27 04:39:28 +0800 CST
  • Martin Hope
    Carl 为什么大多数 systemd 示例都包含 WantedBy=multi-user.target? 2019-03-15 11:49:25 +0800 CST
  • Martin Hope
    rocky 如何将 GPG 私钥和公钥导出到文件 2018-11-16 05:36:15 +0800 CST
  • Martin Hope
    Evan Carroll systemctl 状态显示:“状态:降级” 2018-06-03 18:48:17 +0800 CST
  • Martin Hope
    Tim 我们如何运行存储在变量中的命令? 2018-05-21 04:46:29 +0800 CST
  • Martin Hope
    Ankur S 为什么 /dev/null 是一个文件?为什么它的功能不作为一个简单的程序来实现? 2018-04-17 07:28:04 +0800 CST
  • Martin Hope
    user3191334 如何从 systemctl 服务日志中查看最新的 x 行 2018-02-07 00:14:16 +0800 CST
  • Martin Hope
    Marko Pacak Nano - 跳转到文件末尾 2018-02-01 01:53:03 +0800 CST
  • Martin Hope
    Kidburla 为什么真假这么大? 2018-01-26 12:14:47 +0800 CST
  • Martin Hope
    Christos Baziotis 在一个巨大的(70GB)、一行、文本文件中替换字符串 2017-12-30 06:58:33 +0800 CST

热门标签

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve