AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / computer / 问题 / 1487269
Accepted
Rafael Bankosegger
Rafael Bankosegger
Asked: 2019-09-29 09:21:28 +0800 CST2019-09-29 09:21:28 +0800 CST 2019-09-29 09:21:28 +0800 CST

使用 sed 过滤 RSS 项目

  • 772

我想写一个脚本:

  • 接受一些 RSS-Feed URL 作为输入
  • 下载提要
  • 删除标记不匹配某些正则表达式<item> ...</item>的所有匹配项。title

下面的例子应该说明这一点。假设我们有一个包含这三个项目的 RSS 提要:

  • Project Foo - 让我们开始吧!
  • 完全不同的东西
  • Project Foo 的另一个更新

我只想保留标题中包含“Project Foo”的那些项目。

示例输入文件:

<?xml version="1.0" encoding="iso-8859-1"?>
<rss version="2.0">
<channel>
<title>My glorious newsfeed</title>
<description>...</description>
<link>...</link>
<language>...</language>
<pubDate>...</pubDate>

<item>
<title>Project Foo - Let's get started!</title>
<link>...</link>
<description>...</description>
<pubDate>...</pubDate>
</item>

<item>
<title>Something else entirely</title>
<link>...</link>
<description>...</description>
<pubDate>...</pubDate>
</item>

<item>
<title>Another update on Project Foo</title>
<link>...</link>
<description>...</description>
<pubDate>...</pubDate>
</item>

</channel>
</rss>

示例输出文件:

<?xml version="1.0" encoding="iso-8859-1"?>
<rss version="2.0">
<channel>
<title>My glorious newsfeed</title>
<description>...</description>
<link>...</link>
<language>...</language>
<pubDate>...</pubDate>

<item>
<title>Project Foo - Let's get started!</title>
<link>...</link>
<description>...</description>
<pubDate>...</pubDate>
</item>

<item>
<title>Another update on Project Foo</title>
<link>...</link>
<description>...</description>
<pubDate>...</pubDate>
</item>

</channel>
</rss>

如果可能的话,我想远离类似的东西,python并使用命令行工具来做到这一点。但我是一个使用sed等的大新手,需要一些帮助:)

这是我到目前为止所拥有的:

cat sample-feed.xml \
  | tr -d '\n' \
  | sed $'s/\<item\>/\\\n\<item\>/g;s/\<\/channel\><\/rss\>/\\\n\<\/channel\><\/rss\>/g' \
  | sed '/^\<item\>/ d'

首先,我删除所有换行符。然后,我添加换行符以将每个换行符带到<item>...</item>自己的行中。到目前为止的最后一个命令删除所有以 . 开头的行<item>。为了

结果是一个没有任何项目的有效 rss-feed:

<?xml version="1.0" encoding="iso-8859-1"?><rss version="2.0"><channel><title>My glorious newsfeed</title><description>...</description><link>...</link><language>...</language><pubDate>...</pubDate>    
</channel></rss>

为了使用 URL 而不是本地文件,我只需将其替换cat sample-feed.xml为curl -s <some url>.

但是仍然缺少的是对命令的修改sed '/^\<item\>/ d',它只删除以“Project Foo”开头<item>但不包含“Project Foo”的行。

所以,如果你能帮我弄清楚最后一行应该说什么,我会很高兴。另一方面,我确信有一种更优雅的方法可以做到这一点。从我所见sed,它非常强大,应该可以在一个sed命令中执行此操作。

期待你的回答:-)

sed curl
  • 1 1 个回答
  • 219 Views

1 个回答

  • Voted
  1. Best Answer
    Rafael Bankosegger
    2019-09-30T06:14:44+08:002019-09-30T06:14:44+08:00

    正如评论中所建议的那样,我尝试使用xmlstarlet它来解决这个问题并且效果很好。这是我的脚本

    xml ed -d '//item[not(contains(title,"Project Foo"))]' < sample_rss.xml
    

    假设提要内容在文件中sample_rss.xml。该内容被输入xml ed -d,这将删除与给定 XPath 表达式匹配的任何注释。XPath 表达式查找任何<item> 不具有<title>包含该文本的节点的节点"Project Foo"。

    这似乎运作良好,我对执行时间也很满意:

    real    0m0.003s
    user    0m0.001s
    sys     0m0.002s
    

    小心命名空间

    如果您想使用正确的 rss 或 atom 提要使其工作,您可能会注意到它feed包含一个 XML 命名空间 ( xmlns) 属性,就像 YouTube 中的这个示例一样:

    <?xml version="1.0" encoding="UTF-8"?>
    <feed xmlns:yt="http://www.youtube.com/xml/schemas/2015" xmlns:media="http://search.yahoo.com/mrss/" xmlns="http://www.w3.org/2005/Atom">
       ...
    </feed>
    

    然后,上面的脚本将不再起作用!修复它让我很头疼,但这里是如何让它工作:

    xml ed -d '//_:entry[not(contains(_:title,"Project Foo"))]' < youtube_rss.xml
    

    有关此命名空间问题的更多信息:http: //xmlstar.sourceforge.net/doc/UG/ch05.html

    • 1

相关问题

  • sed/awk:在第一次出现后删除相似的行

  • sed:在所有出现的两个不同的连续匹配项之间匹配一个字符串

  • 偶尔会发生不同的卷曲错误

  • sed 模式匹配日期

  • sed - 从一行中删除除最后一次出现的字符之外的所有字符

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    Windows 照片查看器因为内存不足而无法运行?

    • 5 个回答
  • Marko Smith

    支持结束后如何激活 WindowsXP?

    • 6 个回答
  • Marko Smith

    远程桌面间歇性冻结

    • 7 个回答
  • Marko Smith

    Windows 10 服务称为 AarSvc_70f961。它是什么,我该如何禁用它?

    • 2 个回答
  • Marko Smith

    子网掩码 /32 是什么意思?

    • 6 个回答
  • Marko Smith

    鼠标指针在 Windows 中按下的箭头键上移动?

    • 1 个回答
  • Marko Smith

    VirtualBox 无法以 VERR_NEM_VM_CREATE_FAILED 启动

    • 8 个回答
  • Marko Smith

    应用程序不会出现在 MacBook 的摄像头和麦克风隐私设置中

    • 5 个回答
  • Marko Smith

    ssl.SSLCertVerificationError: [SSL: CERTIFICATE_VERIFY_FAILED] 证书验证失败:无法获取本地颁发者证书 (_ssl.c:1056)

    • 4 个回答
  • Marko Smith

    我如何知道 Windows 安装在哪个驱动器上?

    • 6 个回答
  • Martin Hope
    Albin 支持结束后如何激活 WindowsXP? 2019-11-18 03:50:17 +0800 CST
  • Martin Hope
    fixer1234 “HTTPS Everywhere”仍然相关吗? 2019-10-27 18:06:25 +0800 CST
  • Martin Hope
    Kagaratsch Windows 10 删除大量小文件的速度非常慢。有什么办法可以加快速度吗? 2019-09-23 06:05:43 +0800 CST
  • Martin Hope
    andre_ss6 远程桌面间歇性冻结 2019-09-11 12:56:40 +0800 CST
  • Martin Hope
    Riley Carney 为什么在 URL 后面加一个点会删除登录信息? 2019-08-06 10:59:24 +0800 CST
  • Martin Hope
    zdimension 鼠标指针在 Windows 中按下的箭头键上移动? 2019-08-04 06:39:57 +0800 CST
  • Martin Hope
    Inter Sys Ctrl+C 和 Ctrl+V 是如何工作的? 2019-05-15 02:51:21 +0800 CST
  • Martin Hope
    jonsca 我所有的 Firefox 附加组件突然被禁用了,我该如何重新启用它们? 2019-05-04 17:58:52 +0800 CST
  • Martin Hope
    MCK 是否可以使用文本创建二维码? 2019-04-02 06:32:14 +0800 CST
  • Martin Hope
    SoniEx2 更改 git init 默认分支名称 2019-04-01 06:16:56 +0800 CST

热门标签

windows-10 linux windows microsoft-excel networking ubuntu worksheet-function bash command-line hard-drive

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve