AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / unix / 问题 / 769486
Accepted
Seamus
Seamus
Asked: 2024-02-17 09:44:37 +0800 CST2024-02-17 09:44:37 +0800 CST 2024-02-17 09:44:37 +0800 CST

为什么 grep 忽略前导“.”?

  • 772

我试图在下载的网页中找到一个字符串curl。我用来查找与正则表达式grep模式匹配的字符串。

以下是我试图找到的字符串:

./download/file.php?id=86753

该字符串是网页中这个较大字符串的一部分:

href="./download/file.php?id=86753"

我正在使用的咒语grep如下:

grep -Eo '\.\/download\/file\.php\?id=[0-9]+' dlfile.html

但这在 html 文件中找不到任何内容。但是,如果我进行grep如下修改,我会得到两 (2) 个匹配项。第一场比赛就是我需要的;第二个是无用的干扰,不得包含在内:

grep -Eo '\/download\/file\.php\?id=[0-9]+' dlfile.html
/download/file.php?id=86753
/download/file.php?id=62517

包含第二个(不需要的)匹配的字符串如下:

href="https://web.archive.org/web/20190824162104/https://www.somewhere.com/forums/download/file.php?id=62517&sid=907ab04af81e19ad758c5bcf8ebdca32"

问题似乎是无法识别.字符串中的前导(点)。请注意,这是所需字符串和不需要的字符串之间的主要区别。

问:为什么这不起作用,我需要什么?


我的环境:Debian 衍生品(Raspberry Pi),“bullseye”版本

grep我正在使用哪个bash?

$ grep --version
grep (GNU grep) 3.6
...
$ bash --version
GNU bash, version 5.1.4(1)-release (arm-unknown-linux-gnueabihf)
grep
  • 4 4 个回答
  • 157 Views

4 个回答

  • Voted
  1. Chris Davies
    2024-02-17T17:06:05+08:002024-02-17T17:06:05+08:00

    您已经使用过grep -E,需要扩展正则表达式(ERE)。点必须始终作为文字进行转义。问号对于 ERE 来说是有效的运算符,因此为了匹配文字,它也必须被转义:

    echo 'href="./download/file.php?id=86753"' |
        grep -Eo '\./download/file.php\?id=[0-9]+'
    

    你问,

    为什么 grep 忽略前导“.”?

    看来问题是无法识别领先的 . (点)在字符串中。

    您的模式匹配并且需要一个文字点(这就是\.意思)。但是,您在问题中描述的字符串不会出现在您尝试搜索的网页中。grep不忽视它;它强制要求这样做。看:

    xmlstarlet format --html BDegguyM 2>/dev/null |
        xmlstarlet select -T -t -v '//a[@class="postlink"]/@href' -n
    
      https://forums.raspberrypi.com/download/file.php?id=86753
      https://web.archive.org/web/20190824162104/https://www.raspberrypi.org/forums/download/file.php?id=62517&sid=907ab04af81e19ad758c5bcf8ebdca32
    

    我假设您想要其中第一个,所以让我们提取其中一个:

    xmlstarlet format --html BDegguyM 2>/dev/null |
        xmlstarlet select -T -t -v '//dl[@class="file"]//a[@class="postlink"]/@href' -n
    
      https://forums.raspberrypi.com/download/file.php?id=86753
    

    如果您只想要以开头的部分,/download您可以轻松地将其剥离

    xmlstarlet format --html BDegguyM 2>/dev/null |
        xmlstarlet select -T -t -v '//dl[@class="file"]//a[@class="postlink"]/@href' -n |
        sed -E 's!^https?://[^/]+!!'
    
      /download/file.php?id=86753
    

    如果您确实想使用grep而不是正确的工具来完成工作,这将返回相同的结果:

    grep -Po 'https?://[^/]+\K/download/file.php\?id=\d+' BDegguyM
    
      /download/file.php?id=86753
    
    • 0
  2. Ed Morton
    2024-02-19T08:08:42+08:002024-02-19T08:08:42+08:00

    您的主题行中问题的答案:

    为什么 grep 忽略前导“.”?

    很简单——事实并非如此。

    使用您在 1 个文件中一起提供的 2 条示例输入行:

    $ cat dlfile.html
    href="./download/file.php?id=86753"
    href="https://web.archive.org/web/20190824162104/https://www.somewhere.com/forums/download/file.php?id=62517&sid=907ab04af81e19ad758c5bcf8ebdca32"
    

    并删除 s 之前不需要的(可能无害但肯定依赖于每个 POSIX 的未定义行为)反斜杠,然后运行问题中的/2 个命令:grep

    $ grep -Eo '\./download/file\.php\?id=[0-9]+' dlfile.html
    ./download/file.php?id=86753
    
    $ grep -Eo '/download/file\.php\?id=[0-9]+' dlfile.html
    /download/file.php?id=86753
    /download/file.php?id=62517
    

    第一个grep包含前导.,仅匹配输入中具有前导的字符串,.而第二个grep不包含前导.,毫不奇怪地匹配输入中不以 a 开头的 2 个字符串.。

    关于您对上述第一点的评论grep:

    但这在 html 文件中找不到任何内容。

    然后:

    1. 您问题中的 grep 命令与您实际使用的命令不同,或者
    2. 真实的 html 文件不包含您提供给我们用作示例输入的字符串

    因此,当我们不知道您的命令是什么样子或者我们不知道您的输入是什么样子时,我们实际上无能为力来帮助您调试用于解析某些输入的命令。

    • 0
  3. Best Answer
    Seamus
    2024-02-20T02:55:26+08:002024-02-20T02:55:26+08:00

    这里已经有很多评论了。其中一些人提出了合理的担忧和问题。我相信我终于解决了这个问题,我将其发布在这里以期结束。

    您可能已经了解到,我正在“抓取”包含我需要的信息项的字符串的 URL。大概两年前,我开发了一个脚本来“自动化”这项任务,而且运行得非常完美。该脚本主要完成两件事:

    1. curl&grep网页
    2. 根据结果​​采取其他grep行动

    几天前“有些事情发生了变化” 。我的“可靠”脚本在每次运行期间都开始抛出错误;错误指示表明grep未能找到该字符串。我grep正在使用的:

    curl blah-blah | grep -o '\.\/download\/file\.php?id.[0-9]*'
    

    到目前为止,我仍然不知道一切都发生了变化。我认为其中一个变化是该网站已外包给一家名为“CloudFlare”的公司;另一个似乎是他们不再像处理curl浏览器下载那样处理下载。其他变化似乎正在发生。

    我的问题所反映的混乱部分是由于这些网站的变化,但主要是由于我。我应该有耐心,在发布问题之前更彻底地调查错误。我向所有相关人员致歉。

    我声称从这次经历中学到了一件事:grep不是解析 HTML 的正确工具。我有两个参考资料可以分享:

    1. 这个有争议的线程来自 SO re using regexes to parse HTML

    2. Hiks Gerganov 的这篇内容丰富的文章标题为“在 Shell 中提取 HTML 标签之间的文本的 HTML 解析”。

    • 0
  4. Toby Speight
    2024-02-17T17:23:45+08:002024-02-17T17:23:45+08:00

    如果我更改\/为 plain ,这里工作正常/:

    #!/usr/bin/sh
    
    printf 'href="%s"\n' \
           './download/file.php?id=86753' \
           'elsewhere/download/file.php?id=86753' |
        grep -oE '\./download/file\.php\?id=[0-9]+'
    

    输出:

    ./download/file.php?id=86753
    

    您还可以考虑\B在开头和\b结尾添加,以便更好地拒绝不需要的未遂事件。

    • -1

相关问题

  • 来自 `service | 的意外结果 grep`

  • 读取带有单词的文本文件及其出现次数和排序的打印输出

  • 命令 ls | grep 只显示目录(当它也应该显示文件时)

  • grep 什么时候计数,什么时候不计数

  • grep --line-buffered 直到 X 行?

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    模块 i915 可能缺少固件 /lib/firmware/i915/*

    • 3 个回答
  • Marko Smith

    无法获取 jessie backports 存储库

    • 4 个回答
  • Marko Smith

    如何将 GPG 私钥和公钥导出到文件

    • 4 个回答
  • Marko Smith

    我们如何运行存储在变量中的命令?

    • 5 个回答
  • Marko Smith

    如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域?

    • 3 个回答
  • Marko Smith

    dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

    • 2 个回答
  • Marko Smith

    如何从 systemctl 服务日志中查看最新的 x 行

    • 5 个回答
  • Marko Smith

    Nano - 跳转到文件末尾

    • 8 个回答
  • Marko Smith

    grub 错误:你需要先加载内核

    • 4 个回答
  • Marko Smith

    如何下载软件包而不是使用 apt-get 命令安装它?

    • 7 个回答
  • Martin Hope
    user12345 无法获取 jessie backports 存储库 2019-03-27 04:39:28 +0800 CST
  • Martin Hope
    Carl 为什么大多数 systemd 示例都包含 WantedBy=multi-user.target? 2019-03-15 11:49:25 +0800 CST
  • Martin Hope
    rocky 如何将 GPG 私钥和公钥导出到文件 2018-11-16 05:36:15 +0800 CST
  • Martin Hope
    Evan Carroll systemctl 状态显示:“状态:降级” 2018-06-03 18:48:17 +0800 CST
  • Martin Hope
    Tim 我们如何运行存储在变量中的命令? 2018-05-21 04:46:29 +0800 CST
  • Martin Hope
    Ankur S 为什么 /dev/null 是一个文件?为什么它的功能不作为一个简单的程序来实现? 2018-04-17 07:28:04 +0800 CST
  • Martin Hope
    user3191334 如何从 systemctl 服务日志中查看最新的 x 行 2018-02-07 00:14:16 +0800 CST
  • Martin Hope
    Marko Pacak Nano - 跳转到文件末尾 2018-02-01 01:53:03 +0800 CST
  • Martin Hope
    Kidburla 为什么真假这么大? 2018-01-26 12:14:47 +0800 CST
  • Martin Hope
    Christos Baziotis 在一个巨大的(70GB)、一行、文本文件中替换字符串 2017-12-30 06:58:33 +0800 CST

热门标签

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve