使用 sed 读取字符编码

Question

daltonfury42

Asked: 2015-08-14 05:30:16 +0800 CST2015-08-14 05:30:16 +0800 CST 2015-08-14 05:30:16 +0800 CST

帮助使用 sed 脚本删除维基百科引文编号

我刚刚开始学习 sed 和 awk。我明天必须提交作业，这是从维基百科复制粘贴的。只是练习一些 sed 脚本的机会！

所以我有html格式的文档。现在我不需要替换[<number>]任何东西。我该怎么做？

这是我尝试过的，但我认为它甚至不符合我想要的模式：

cat content.xml | sed 's/\[\d+\]/ /g' > content2.xml

作为下一阶段，我将实施这些模式的替换，它们是超链接，但即使是上面提到的简单模式也不会被匹配：

<a href="https://en.wikipedia.org/wiki/Immune_system">immune system</a>

然后删除引用：

<a name="cite_ref-Gleeson2007_27-0"/><a href="https://en.wikipedia.org/wiki/Physical_exercise#cite_note-Gleeson2007-27">[27]</a>

user.dz · Answer 1 · 2015-09-21T06:16:16+08:00

Best Answer

user.dz

你走错了方向，你应该学习 XML/XSLT :)（XML 样式表）。用于 ODT 或 XHTML。对于ODT，宏可能更好，但我不知道。

这个答案中的解决方案如何用它们的描述替换 Libreoffice 中的所有图像应该也适用于你，只需稍作修改。