AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / unix / 问题

问题[xmlstarlet](unix)

Martin Hope
Daniel
Asked: 2023-07-04 21:22:44 +0800 CST

使用 xmlstarlet 提取 XML 中元素的值

  • 8

我的情况非常具体,我是xmlstarlet的初学者。

我有一个如下所示的 XML 文件,其中包含数百个条目。

<netbooks>
  <file id="2">
    <date>2008-06-04 16:40</date>
    <author>Daniel</author>
    <name bytes="422904" hash="383a39b183">New name of - Just an example.pdf</nome>
    <name bytes="383135" hash="5a43dc3524">Just an example.pdf</nome>
  </file>
</netbooks>

其中root = 上网本标签。

问题

  1. 我有文件哈希5a43dc3524,我想获取日期值,即2008-06-04 16:40。做到这一点最简单的方法是什么?
  2. 另外,如何从文件元素中获取属性 id(即2)?再说一遍,我有哈希值,就这样。
xmlstarlet
  • 1 个回答
  • 74 Views
Martin Hope
cas
Asked: 2022-09-15 16:55:37 +0800 CST

如何使用 xstarlet 从 XHTML 中删除具有特定类的 div?

  • 5

我在子目录 (*) 中有数百个 .xhtml 文件,我想从中删除所有具有特定类的 DIV(以及这些 DIV 的全部内容 - 包括其他 div、span、图像和段落元素)。DIV 可能在每个 .xhtml 文件中的任意深度出现零次、一次或多次。

我要删除的特定 DIV 是:

<div class="portlet solid author-note-portlet">.....</div>

使用xml_grepperl XML::Twig模块中的实用程序,我可以运行xml_grep -v 'div[@class="portlet solid author-note-portlet"]' file*.xhtml它,它将从 .xhtml 文件中删除该 div 的所有实例并在标准输出上显示结果。正是我想要的,除了“在标准输出上显示”。

如果xml_grep有某种就地编辑选项,那很好,我会使用它....但它没有,所以我必须编写一个使用临时文件或sponge运行的包装脚本xml_grep 分别针对每个 .xhtml 文件,这将是缓慢而乏味的。或者我可以破解 xml_grep 的副本,以便它可以编辑其输入文件。

但我不想做这两件事,我想使用已经可以做到这一点的现有工具,我想使用xmlstarlet- 它会更快,有就地编辑,我不必每个文件名运行一次。

问题是,无论我尝试什么(我已经尝试了几十种变体),我都无法找出正确的 xpath 规范来删除这个类的 div。例如,我尝试过:

xmlstarlet ed -d "div[@class='portlet solid author-note-portlet']" file.xhtml

和(不同的引用)

xmlstarlet ed -d 'div[@class="portlet solid author-note-portlet"]' file.xhtml

和

xmlstarlet ed -d '//html/body/div/div/div[@class="portlet solid author-note-portlet"]'

以及数十种其他变体。它们都没有导致 xhtml 输出发生任何变化。这是我通常放弃 xmlstarlet 并编写 perl 脚本的点,但这次我决心用 xmlstarlet 来做。

那么,为 xmlstarlet 指定这个 div 类的正确方法是什么?

顺便说一句,举个例子 .xhtml 文件(这个 div 的两个实例,恰好在相同的深度......这是相当典型但不普遍),xmlstarlet el -v说:

$ xmlstarlet el -v OEBPS/file0007.xhtml | grep author-note-portlet
html/body/div/div[@class='portlet solid author-note-portlet']
html/body/div/div[@class='portlet solid author-note-portlet']

(*) 没关系,但这些 .xhtml 文件位于Calibre的FanFicFare插件生成的 .epub 文件中 (**) - 该插件从各种小说网站上的书籍下载所有章节并将它们转换为 epub 文件(它基本上是一个包含 XHTML 和 CSS 文件,可能还有 jpeg 或 gif 文件,以及一堆元数据文件的 zip 存档)。

<div class="portlet solid author-note-portlet">由一个站点(皇家路)使用,供作者在章节中包含注释。一些作者很少使用它,并插入关于章节或书籍的简短注释或关于随机内容的简短公告,可能还有指向他们的 patreon 页面的链接......好吧,没什么大不了的。

其他人使用它在每章开头添加半页注释,其中包含指向其他 10 本书的链接,并再次在每章末尾添加三页半链接(带有封面图片)到这些书籍。如果您在网站上逐章阅读它,这有点不错,但如果您将其作为一本书阅读,则不是 - 每 6 到 10 页自我推销约 4 页大约几页的故事过多且分散注意力。而且,顺便说一句,这是我 10 英寸安卓平板电脑上的 4 个“页面”——它是我手机上的两倍多。

我可以很容易地display: none为这个类添加到 epub 的样式表中,但我想真正从 .xhtml 文件中删除 div。它们明显增加了 .epub 文件的大小。

(**) 解压缩 .epub 的内容并在之后重建它超出了这个问题的范围,所以请不要被无关的细节分心。已经处理好了。


示例 .xhtml 文件,编辑到最低限度(故事/章节/作者姓名匿名以保护“有罪:-):

<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.1//EN"
  "http://www.w3.org/TR/xhtml11/DTD/xhtml11.dtd">

<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<title>Chapter Five - Chapter Name</title>
<link href="stylesheet.css" type="text/css" rel="stylesheet"/>
<meta name="chapterurl" content="https://www.royalroad.com/fiction/URL"/>
<meta name="chapterorigtitle" content="Chapter Five - Chapter Name"/>
<meta name="chaptertoctitle" content="Chapter Five - Chapter Name"/>
<meta name="chaptertitle" content="Chapter Five - Chapter Name"/>
</head>
<body class="fff_chapter">
<h3 class="fff_chapter_title">Chapter Five - Chapter Name</h3>
<div class="chapter-inner chapter-content"><div class="portlet solid author-note-portlet">
                    <div class="portlet-title">
                        <div class="caption">
                            <i class="fa fa-sticky-note"></i>
                            <span class="caption-subject bold uppercase">A note from Author Name</span>
                        </div>
                    </div>
                    <div class="portlet-body author-note"><p><span>About a dozen or so p, span, img, and br tags here</span></p>
</div>
                </div>
<p> story text here.  a few hundreds p, br, etc tags
</p>
            <div class="portlet solid author-note-portlet">
                    <div class="portlet-title">
                        <div class="caption">
                            <i class="fa fa-sticky-note"></i>
                            <span class="caption-subject bold uppercase">A note from Author Name</span>
                        </div>
                    </div>
                    <div class="portlet-body author-note"><p>several dozen more p, span, br, img, etc tags here</p>
</div>
                </div>
</div>
</body>
</html>
xmlstarlet
  • 2 个回答
  • 244 Views
Martin Hope
JohnJ
Asked: 2020-01-18 06:07:54 +0800 CST

使用 xmlstarlet 在 xml 中插入一行

  • 0

我有一个如下所示的 XML 文件:

    <?xml version="1.0" encoding="UTF-8"?>
    <!-- Solr managed schema - automatically generated - DO NOT EDIT -->
    <schema name="default-config" version="1.6">
      <uniqueKey>id</uniqueKey>
     ....

我想插入这一行:

<similarity class="solr.BM25SimilarityFactory"/>

之间<schema.. and <uniqueKey像这样:

    <?xml version="1.0" encoding="UTF-8"?>
    <!-- Solr managed schema - automatically generated - DO NOT EDIT -->
    <schema name="default-config" version="1.6">
    <similarity class="solr.BM25SimilarityFactory"/>
      <uniqueKey>id</uniqueKey>

我正在尝试使用 xmlstarlet 来做到这一点,但运气不佳:(

xml xmlstarlet
  • 1 个回答
  • 601 Views
Martin Hope
Greg Iven
Asked: 2018-03-20 11:16:33 +0800 CST

XmlStarlet xml 到 csv 输出为 'NaNNaNNaN'

  • 1

我写了一个查询xmlstarlet sel -T -t -m badges/row -v "concat(@row, ',')" -n Badges.xml,输出重复为:

NaNNaNNaN...

Badges.xml 文件中的行数可能是多少。我正在关注这个 tut:https ://www.joyofdata.de/blog/transforming-xml-document-into-csv-using-xmlstarlet/将 xml 格式的数据转换为 CSV。任何人都明白这里发生了什么?

在此处输入图像描述

编辑,这里是 XML 文件的一些示例行:

<?xml version="1.0" encoding="utf-8"?>
<badges>
 <row Id="1" UserId="1" Name="Autobiographer" Date="2016-08-02T15:56:07.133" 
  Class="3" TagBased="False" />
 <row Id="2" UserId="8" Name="Autobiographer" Date="2016-08-02T15:56:07.133" 
  Class="3" TagBased="False" />
 <row Id="3" UserId="9" Name="Autobiographer" Date="2016-08-02T15:56:07.133" 
  Class="3" TagBased="False" />
 <row Id="4" UserId="19" Name="Autobiographer" Date="2016-08-
  02T15:56:07.133" Class="3" TagBased="False" />
 <row Id="5" UserId="27" Name="Autobiographer" Date="2016-08-
  02T15:56:07.133" Class="3" TagBased="False" />
csv xmlstarlet
  • 1 个回答
  • 726 Views
Martin Hope
Shahar Hamuzim Rajuan
Asked: 2017-12-07 06:55:15 +0800 CST

仅在一个子节点中使用 xmlstarlet 编辑 XML

  • 5

使用命令时:

-bash-4.2$ xmlstarlet ed -u "/configurations/rules/rule/branch" -v 'DAVID' config.xml > final.xml

我看到输出文件已更改为DAVID,但是在声明标签“分支”的每个地方都进行了全局更改。

但我只想在一个子节点上更改它,比如说“APP1”,我需要使用什么命令?有没有办法将值'DAVID'作为参数?

  <configurations>
    <smtpHost>smtp3.gmail.com</smtpHost>
    <smtpPort>25</smtpPort>
    <emailFrom>[email protected]</emailFrom>
    <emailSubject>Push notification</emailSubject>
    <!-- Stash general URL-->
    <gitViewerURL>http://mydtbld0005.gmail.com:7990/projects/</gitViewerURL>

    <!-- repositories list and commit URL path per repo -->

    <repositoryViewerPath name="hookTester" path="DevOps/repos/hooktester/commits/"/>

    <separator>#@#</separator>
    <catExe>cat</catExe>
    <catExeWindows>type</catExeWindows>
    <gitExe>git</gitExe>
    <gitExeWindows>C:\\Program Files (x86)\\Git\\cmd\\git.exe</gitExeWindows>
    <gitFolder>/gitdata/alm_mng.git</gitFolder>
    <gitFolderWindows>c:\gitdata\alm_mng.git</gitFolderWindows>
      <rules>
            <rule>
                <name>APP1</name>
                <repo>hookTester</repo>
                <branch>refs/heads/master</branch>
                <emailTo>[email protected]</emailTo>
                <path>F1/ido.xml </path>
            </rule>
            <rule>
                <name>APP2</name>
                <repo>hookTester</repo>
                <branch>refs/heads/master</branch>
                <emailTo>[email protected]</emailTo>
                <path>F2/ido.xml </path>
            </rule>
       </rules>
  </configurations> 
xml xmlstarlet
  • 1 个回答
  • 3496 Views

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    模块 i915 可能缺少固件 /lib/firmware/i915/*

    • 3 个回答
  • Marko Smith

    无法获取 jessie backports 存储库

    • 4 个回答
  • Marko Smith

    如何将 GPG 私钥和公钥导出到文件

    • 4 个回答
  • Marko Smith

    我们如何运行存储在变量中的命令?

    • 5 个回答
  • Marko Smith

    如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域?

    • 3 个回答
  • Marko Smith

    dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

    • 2 个回答
  • Marko Smith

    如何从 systemctl 服务日志中查看最新的 x 行

    • 5 个回答
  • Marko Smith

    Nano - 跳转到文件末尾

    • 8 个回答
  • Marko Smith

    grub 错误:你需要先加载内核

    • 4 个回答
  • Marko Smith

    如何下载软件包而不是使用 apt-get 命令安装它?

    • 7 个回答
  • Martin Hope
    user12345 无法获取 jessie backports 存储库 2019-03-27 04:39:28 +0800 CST
  • Martin Hope
    Carl 为什么大多数 systemd 示例都包含 WantedBy=multi-user.target? 2019-03-15 11:49:25 +0800 CST
  • Martin Hope
    rocky 如何将 GPG 私钥和公钥导出到文件 2018-11-16 05:36:15 +0800 CST
  • Martin Hope
    Evan Carroll systemctl 状态显示:“状态:降级” 2018-06-03 18:48:17 +0800 CST
  • Martin Hope
    Tim 我们如何运行存储在变量中的命令? 2018-05-21 04:46:29 +0800 CST
  • Martin Hope
    Ankur S 为什么 /dev/null 是一个文件?为什么它的功能不作为一个简单的程序来实现? 2018-04-17 07:28:04 +0800 CST
  • Martin Hope
    user3191334 如何从 systemctl 服务日志中查看最新的 x 行 2018-02-07 00:14:16 +0800 CST
  • Martin Hope
    Marko Pacak Nano - 跳转到文件末尾 2018-02-01 01:53:03 +0800 CST
  • Martin Hope
    Kidburla 为什么真假这么大? 2018-01-26 12:14:47 +0800 CST
  • Martin Hope
    Christos Baziotis 在一个巨大的(70GB)、一行、文本文件中替换字符串 2017-12-30 06:58:33 +0800 CST

热门标签

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve