使用 xmlstarlet 在 xml 中插入一行

Question

cas

Asked: 2022-09-15 16:55:37 +0800 CST2022-09-15 16:55:37 +0800 CST 2022-09-15 16:55:37 +0800 CST

如何使用 xstarlet 从 XHTML 中删除具有特定类的 div？

772

我在子目录 (*) 中有数百个 .xhtml 文件，我想从中删除所有具有特定类的 DIV（以及这些 DIV 的全部内容 - 包括其他 div、span、图像和段落元素）。DIV 可能在每个 .xhtml 文件中的任意深度出现零次、一次或多次。

我要删除的特定 DIV 是：

<div class="portlet solid author-note-portlet">.....</div>

使用xml_grepperl XML::Twig模块中的实用程序，我可以运行xml_grep -v 'div[@class="portlet solid author-note-portlet"]' file*.xhtml它，它将从 .xhtml 文件中删除该 div 的所有实例并在标准输出上显示结果。正是我想要的，除了“在标准输出上显示”。

如果xml_grep有某种就地编辑选项，那很好，我会使用它....但它没有，所以我必须编写一个使用临时文件或sponge运行的包装脚本xml_grep 分别针对每个 .xhtml 文件，这将是缓慢而乏味的。或者我可以破解 xml_grep 的副本，以便它可以编辑其输入文件。

但我不想做这两件事，我想使用已经可以做到这一点的现有工具，我想使用xmlstarlet- 它会更快，有就地编辑，我不必每个文件名运行一次。

问题是，无论我尝试什么（我已经尝试了几十种变体），我都无法找出正确的 xpath 规范来删除这个类的 div。例如，我尝试过：

xmlstarlet ed -d "div[@class='portlet solid author-note-portlet']" file.xhtml

和（不同的引用）

xmlstarlet ed -d 'div[@class="portlet solid author-note-portlet"]' file.xhtml

和

xmlstarlet ed -d '//html/body/div/div/div[@class="portlet solid author-note-portlet"]'

以及数十种其他变体。它们都没有导致 xhtml 输出发生任何变化。这是我通常放弃 xmlstarlet 并编写 perl 脚本的点，但这次我决心用 xmlstarlet 来做。

那么，为 xmlstarlet 指定这个 div 类的正确方法是什么？

顺便说一句，举个例子 .xhtml 文件（这个 div 的两个实例，恰好在相同的深度......这是相当典型但不普遍），xmlstarlet el -v说：

$ xmlstarlet el -v OEBPS/file0007.xhtml | grep author-note-portlet
html/body/div/div[@class='portlet solid author-note-portlet']
html/body/div/div[@class='portlet solid author-note-portlet']

(*) 没关系，但这些 .xhtml 文件位于Calibre的 FanFicFare插件生成的 .epub 文件中 (**) - 该插件从各种小说网站上的书籍下载所有章节并将它们转换为 epub 文件（它基本上是一个包含 XHTML 和 CSS 文件，可能还有 jpeg 或 gif 文件，以及一堆元数据文件的 zip 存档）。

<div class="portlet solid author-note-portlet">由一个站点（皇家路）使用，供作者在章节中包含注释。一些作者很少使用它，并插入关于章节或书籍的简短注释或关于随机内容的简短公告，可能还有指向他们的 patreon 页面的链接......好吧，没什么大不了的。

其他人使用它在每章开头添加半页注释，其中包含指向其他 10 本书的链接，并再次在每章末尾添加三页半链接（带有封面图片）到这些书籍。如果您在网站上逐章阅读它，这有点不错，但如果您将其作为一本书阅读，则不是 - 每 6 到 10 页自我推销约 4 页大约几页的故事过多且分散注意力。而且，顺便说一句，这是我 10 英寸安卓平板电脑上的 4 个“页面”——它是我手机上的两倍多。

我可以很容易地display: none为这个类添加到 epub 的样式表中，但我想真正从 .xhtml 文件中删除 div。它们明显增加了 .epub 文件的大小。

(**) 解压缩 .epub 的内容并在之后重建它超出了这个问题的范围，所以请不要被无关的细节分心。已经处理好了。

示例 .xhtml 文件，编辑到最低限度（故事/章节/作者姓名匿名以保护“有罪:-)：

<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.1//EN"
  "http://www.w3.org/TR/xhtml11/DTD/xhtml11.dtd">

<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<title>Chapter Five - Chapter Name</title>
<link href="stylesheet.css" type="text/css" rel="stylesheet"/>
<meta name="chapterurl" content="https://www.royalroad.com/fiction/URL"/>
<meta name="chapterorigtitle" content="Chapter Five - Chapter Name"/>
<meta name="chaptertoctitle" content="Chapter Five - Chapter Name"/>
<meta name="chaptertitle" content="Chapter Five - Chapter Name"/>
</head>
<body class="fff_chapter">
<h3 class="fff_chapter_title">Chapter Five - Chapter Name</h3>
<div class="chapter-inner chapter-content"><div class="portlet solid author-note-portlet">
                    <div class="portlet-title">
                        <div class="caption">
                            <i class="fa fa-sticky-note"></i>
                            <span class="caption-subject bold uppercase">A note from Author Name</span>
                        </div>
                    </div>
                    <div class="portlet-body author-note"><p><span>About a dozen or so p, span, img, and br tags here</span></p>
</div>
                </div>
<p> story text here.  a few hundreds p, br, etc tags
</p>
            <div class="portlet solid author-note-portlet">
                    <div class="portlet-title">
                        <div class="caption">
                            <i class="fa fa-sticky-note"></i>
                            <span class="caption-subject bold uppercase">A note from Author Name</span>
                        </div>
                    </div>
                    <div class="portlet-body author-note"><p>several dozen more p, span, br, img, etc tags here</p>
</div>
                </div>
</div>
</body>
</html>

2 个回答

Voted

Kusalananda · Answer 1 · 2022-09-15T22:26:11+08:00

正确的做法xmlstarlet是

xmlstarlet ed --inplace -N xmlns="http://www.w3.org/1999/xhtml" \
    --delete '//xmlns:div[@class="portlet solid author-note-portlet"]' file

或者，使用空头期权，

xmlstarlet ed -L -N xmlns="http://www.w3.org/1999/xhtml" \
    -d '//xmlns:div[@class="portlet solid author-note-portlet"]' file

由于文档使用默认命名空间，我们需要xmlstarlet知道所有节点都属于这个命名空间，然后还要在 XPath 表达式中使用命名空间占位符作为节点名称的前缀。

根据文档，-N必须是最后一个“全局选项”，即它必须在-L（另一个全局选项）之后。是对的-d“删除操作” xmlstarlet ed，因此它不是全局选项之一。

XPath//xmlns:div将递归查找命名空间中调用的div节点xmlns。

在这个问题中，除了不处理名称空间之外，您还没有指定或过度指定它。使用div，与相同/div，将匹配根节点，并且//html/body/div/div/div将匹配html/body/div/div, 任何地方的直接子节点。

yqJSON 处理器周围的包装器（由 Andrey Kislyuk 编写）jq带有一个名为xq. 你也可以使用它：

xq -x 'del(.. | .div? | select(."@class"? == "portlet solid author-note-portlet"))' file

( -x)--xml-output选项为您提供 XML 输出而不是 JSON 输出。使用xqwith -i( --in-place) 将使其进行就地编辑。

这个 XML 解析器不关心名称空间。

eff · Answer 2 · 2022-09-16T05:39:32+08:00

eff

2022-09-16T05:39:32+08:002022-09-16T05:39:32+08:00

一个单独的说明是，鉴于您可以使用实现您想要的过滤xml_grep，您将在比写下您的问题以使用类似以下 bash 命令的时间更短的时间内解决问题

    mkdir temp
    for file in <subdir>/*.xhtml; do
        # Your magic xml_grep command
        xml_grep -v 'div[@class="portlet solid author-note-portlet"]' "$file" > "temp/$file"
    done
    rm -r subdir
    mv temp subdir

另一方面，学习使用其他工具也有好处和满足感。

-1

如何使用 xstarlet 从 XHTML 中删除具有特定类的 div？

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

如何使用 xstarlet 从 XHTML 中删除具有特定类的 div？

2 个回答

相关问题