AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / unix / 问题 / 694397
Accepted
user518378
user518378
Asked: 2022-03-15 12:27:03 +0800 CST2022-03-15 12:27:03 +0800 CST 2022-03-15 12:27:03 +0800 CST

使用 Shell 从 KML 中提取海平面压力

  • 772

我目前正在做一个小项目;在名为 weatherdata.kml 的 kml 文件中,我想提取每个<Placemark>元素的海平面压力。我正在尝试解析有关海平面压力的信息并将其放入一个名为report.csv; 并每次在新行上打印海平面压力。

我认为这可以使用awk,到目前为止我已经尝试过:

 awk -F '[>,]' '/minSeaLevelPres/ {print $2}' report.csv

但是当我在 shell 中运行这个命令时,我得到了这个:

1002</minSeaLevelPres
1002</minSeaLevelPres
1002</minSeaLevelPres
1001</minSeaLevelPres
1001</minSeaLevelPres
1001</minSeaLevelPres
1001</minSeaLevelPres
1001</minSeaLevelPres
1001</minSeaLevelPres
1001</minSeaLevelPres
1001</minSeaLevelPres
1002</minSeaLevelPres
1002</minSeaLevelPres
1003</minSeaLevelPres

当我想得到这个时:

1002
1002
1002
1001
1001
1001
1001
1001
1001
1001
1001
1002
1002
1003

我不知道如何摆脱</minSeaLevelPres. 有人能帮忙吗?

下面是一个地标元素的一部分的示例weatherdata.kml

 <Placemark>
        <styleUrl>#ex</styleUrl>
        <lat>19.2</lat>
        <lon>-24.1</lon>
        <stormName>NINE</stormName>
    <stormNum>10</stormNum>
    <basin>AL</basin>
        <stormType>LO</stormType>
        <intensity>20</intensity>
           <intensityMPH>23</intensityMPH>
           <intensityKPH>37</intensityKPH>
           <minSeaLevelPres>1002</minSeaLevelPres>
           <atcfdtg>2020082350</atcfdtg>
        <dtg>0000 UTC JAN 07</dtg>
       </Placemark>
awk xml
  • 4 4 个回答
  • 818 Views

4 个回答

  • Voted
  1. Cyrus
    2022-03-15T13:00:22+08:002022-03-15T13:00:22+08:00

    我建议使用可以正确处理 XML 的工具:

    xmlstarlet select --template --value-of '//minSeaLevelPres' -n weatherdata.kml
    

    输出:

    1002
    

    看:xmlstarlet select --help

    • 17
  2. Marcus Müller
    2022-03-15T13:03:14+08:002022-03-15T13:03:14+08:00

    KML 是一种 XML 语言。XML 不是一种可以可靠解析的语言awk。你可能对你拥有的文件很幸运——它们的结构可能比语言定义所允许的更可靠——但是当你得到一个始终可以使用不同工具的解析器时,根本没有理由在 AWK 中编写你自己的受限解析器。例如,当删除或添加换行符、注释时,您的内容就会中断。

    我认为您只是在尝试使用错误的工具。就像您已经awk在系统上安装一样,您已经安装了例如python,然后您将拥有一个 XML 解析器,并且可以在没有 Python 标准库之外的外部代码的情况下编写一个非常小的程序来编写您的 CSV。(请记住,UNIX 哲学不是“你有一把锤子,现在一切都是钉子”,而是“你有用于不同目的的工具,为你的目的找到合适的工具”)。

    import sys
    import xml.etree.ElementTree as ElemTree
    
    fname = sys.argv[1]
    tree = ElemTree.parse(fname)
    for placemark in tree.getroot().iter("Placemark"):
        print(placemark.find("minSeaLevelPres").text)
    

    就是这样。保存到文件,赋予文件执行权限(chmod o+x {filename}),然后就可以运行了/path/to/filename input.kml。

    一般说明:

    因为weatherdata.kml是这么大的文件,

    我不知道对您来说什么是“大”,但是如果您最终编写了一个包含数百万行的 CSV,那么您将无法获得非常有效的数据表示。找出这个数据的消费者支持哪些二进制格式,然后直接写出来。有可能有一个 Python 库。

    • 5
  3. Best Answer
    Nasir Riley
    2022-03-16T03:34:14+08:002022-03-16T03:34:14+08:00

    像其他人一样,我不建议这样做,awk因为您正在使用 XML。但是,如果您出于某种原因想使用它,并且您的文件被格式化为awk可以工作或更好的格式,如果它是纯文本文件,那么我只会说明您拥有的命令的确切原因在您的问题中不起作用:

    您的命令的字段分隔符>为,[>,]

    awk -F '[>,]' '/minSeaLevelPres/ {print $2}' report.csv
    

    这意味着第二个字段是在您的文件中>和包含字符串的行上的这两个字符中的任何一个的第一个实例之后的内容minSeaLevelPres,{print $2}它将准确地为您提供您得到的内容:

    1002</minSeaLevelPres>
    

    在这种特定情况下,如果您只是想1002从您提供的示例文本中获取,您需要的是这个

    awk -F '[><]' '/minSeaLevelPres/ {print $3}' weatherdata.kml
    

    这会将字段分隔符设置为>or <which will make1002并且只有1002第三个字段将从上面的命令中打印并给出你想要的:

    1002
    

    同样,我不建议在awkXML 上使用,或者为了参数的缘故,在 HTML 文件上使用,但我只是提供这个答案来说明为什么你的命令不工作以及你会做些什么来让它工作如果您正在对纯文本文件进行操作。以后使用时可以参考这个awk。

    • 3
  4. jubilatious1
    2022-03-16T00:10:46+08:002022-03-16T00:10:46+08:00

    使用Raku(以前称为 Perl_6)

    ~$ raku -MXML -e 'my $xml=open-xml($*ARGFILES.Str); 
            .put for $xml.lookfor(:TAG<minSeaLevelPres>)>>.[0];' weatherdata.kml
    

    上面是用 Raku 编码的答案,Raku 是 Perl 编程语言家族的成员。您可以使用命令行标志在命令行中加载 RakuXML模块。然后使用(递归元素搜索)命令-MXML解析 XML 。lookfor在最后一步,>>.[0] 或者.map(*.[0])映射到标签中,只返回其中包含的值。

    请注意,不清楚您的weatherdata.kml文件实际上是什么样子,它是否具有简单、浮动和/或突出的地标中的一个或全部。上面的命令只是递归地查找:TAG<minSeaLevelPres>,每行输出一个值。

    示例输入,请参阅:

    https://developers.google.com/kml/documentation/KML_Samples.kml

    示例输出(更改TAG为:TAG<tessellate>测试):

    1
    0
    1
    1
    1
    1
    1
    1
    1
    1
    

    https://github.com/raku-community-modules/XML
    https://raku.org/

    • 2

相关问题

  • 根据第一个逗号之前的匹配删除重复行数

  • 在另一个文件之后逐行追加行

  • 如何删除两行之间的单行

  • 重新排列字母并比较两个单词

  • 多行文件洗牌

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    模块 i915 可能缺少固件 /lib/firmware/i915/*

    • 3 个回答
  • Marko Smith

    无法获取 jessie backports 存储库

    • 4 个回答
  • Marko Smith

    如何将 GPG 私钥和公钥导出到文件

    • 4 个回答
  • Marko Smith

    我们如何运行存储在变量中的命令?

    • 5 个回答
  • Marko Smith

    如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域?

    • 3 个回答
  • Marko Smith

    dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

    • 2 个回答
  • Marko Smith

    如何从 systemctl 服务日志中查看最新的 x 行

    • 5 个回答
  • Marko Smith

    Nano - 跳转到文件末尾

    • 8 个回答
  • Marko Smith

    grub 错误:你需要先加载内核

    • 4 个回答
  • Marko Smith

    如何下载软件包而不是使用 apt-get 命令安装它?

    • 7 个回答
  • Martin Hope
    user12345 无法获取 jessie backports 存储库 2019-03-27 04:39:28 +0800 CST
  • Martin Hope
    Carl 为什么大多数 systemd 示例都包含 WantedBy=multi-user.target? 2019-03-15 11:49:25 +0800 CST
  • Martin Hope
    rocky 如何将 GPG 私钥和公钥导出到文件 2018-11-16 05:36:15 +0800 CST
  • Martin Hope
    Evan Carroll systemctl 状态显示:“状态:降级” 2018-06-03 18:48:17 +0800 CST
  • Martin Hope
    Tim 我们如何运行存储在变量中的命令? 2018-05-21 04:46:29 +0800 CST
  • Martin Hope
    Ankur S 为什么 /dev/null 是一个文件?为什么它的功能不作为一个简单的程序来实现? 2018-04-17 07:28:04 +0800 CST
  • Martin Hope
    user3191334 如何从 systemctl 服务日志中查看最新的 x 行 2018-02-07 00:14:16 +0800 CST
  • Martin Hope
    Marko Pacak Nano - 跳转到文件末尾 2018-02-01 01:53:03 +0800 CST
  • Martin Hope
    Kidburla 为什么真假这么大? 2018-01-26 12:14:47 +0800 CST
  • Martin Hope
    Christos Baziotis 在一个巨大的(70GB)、一行、文本文件中替换字符串 2017-12-30 06:58:33 +0800 CST

热门标签

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve