AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / coding / 问题 / 77859668
Accepted
Dov
Dov
Asked: 2024-01-22 19:53:08 +0800 CST2024-01-22 19:53:08 +0800 CST 2024-01-22 19:53:08 +0800 CST

如何编写 ANTLR4 语法来解析匹配的 html 标签

  • 772

我编写了一个简单的解析器来尝试了解 ANTLR4 如何在具有匹配标签的 HTML 风格语言上工作。例如,如果有一个标签

<p> ... </p>

我认为它应该与一个规则相匹配:

p: '<' 'p' CLASS_NAME? '>' tag_block '<' '/' 'p' '>' ;

这看起来相当繁重,因为如果每个规则可以包含其他所有内容,我必须以这种方式手动编写每个规则。是否有一种通用的方法来编写规则,即对于可以包含其他标签的每种标签,前后的尖括号必须匹配?或者我只需为每一个都写一下:

p: '<' 'p' CLASS_NAME? '>' tag_block '<' '/' 'p' '>' ;
div: '<' 'div' CLASS_NAME? '>' tag_block '<' '/' 'div' '>' ;
canvas: '<' 'canvas' CLASS_NAME? '>' tag_block '<' '/' 'canvas' '>' ;

是否可以编写一个通用的复合标签,例如:

compoundtag: '<' ('p' | 'div' | 'canvas') CLASS_NAME? '>' tag_block '<' '/' ( MATCHING EARLIER NAME???) '>'

我确信我犯了更多错误,所以这里是完整的语法文件:

grammar simple_grail;

prog: tag_block ;

tag_block: (tag)*;

/* root definition of any tag in Grail */
tag:
    p | div | canvas | rect | button | txt | textlit;

p: '<' 'p' CLASS_NAME? '>' tag_block '<' '/' 'p' '>' ;
div: '<' 'div' CLASS_NAME? '>' tag_block '<' '/' 'div' '>' ;
canvas: '<' 'canvas' CLASS_NAME? '>' tag_block '<' '/' 'canvas' '>' ;
rect:
     '<' 'rect' CLASS_NAME?
     'x' ASSIGN_COORD 'y' ASSIGN_COORD 'w' ASSIGN_COORD 'h' ASSIGN_COORD
     '/>' ;
button:
    '<' 'button' (CLASS_NAME)? (NAME)? 'text' ASSIGN_TEXT '/>' ;
txt:
    '<' 'text' 'x' ASSIGN_COORD 'y' ASSIGN_COORD '/>' ;

textlit:
    TEXT?
    ;

CLASS_NAME: [a-zA-Z_] [a-zA-Z_0-9]* ;

ASSIGN_COORD: '=' [0-9]+ ;

name: 'name' '=' NAME ;

NAME: [A-Za-z_][A-Za-z_0-9]* ;

ASSIGN_TEXT: '=' ('"' [^"]* '"' | '\'' [^']* '\'');

TEXT: [^<]+ ;

我想解析第一个小程序:

<p>text goes here</p>

我希望 textlit 应该与文本匹配,对于像 p 这样的文本周围的标签,我应该覆盖 exitTextlit() 方法和 exitP() 来决定要做什么。如果我截取了 EnterP(),那么里面还没有文本。是对的吗?

有一个警告说我可以匹配空字符串,并且我知道如果我跳过空格会产生错误,但我不明白程序应该如何匹配:

<p></p>

如果textlit不能为空。

parsing
  • 1 1 个回答
  • 27 Views

1 个回答

  • Voted
  1. Best Answer
    Bart Kiers
    2024-01-22T20:14:55+08:002024-01-22T20:14:55+08:00

    (至少)有两件事出了问题:

    1. textlit不应匹配空字符串,因为textlit正在重复tag_block: (tag)*;
    2. ANTLR 的正则表达式语法略有不同:不要执行[^<]+(匹配一个或多个字符'^'或'<'),而是执行以下操作:(~[<]+匹配除 之外的一个或多个字符'<')

    当您修复这些点时,您将看到为输入创建以下标记<p>text goes here</p>:

    5 tokens:
      1    null                           '<'
      2    TEXT                           'p>text goes here'
      3    null                           '<'
      4    TEXT                           '/p>'
      5    EOF                            '<EOF>'
    

    正如你所看到的,p>text goes here这是不正确的。解决这个问题的一种方法是使用词法模式。您可以查看 ANTLR 存储库中的 HTML 语法:https://github.com/antlr/grammars-v4/tree/master/html

    我总是只通过一个小的 Java 类进行测试,但如果您使用TestRig,请确保您正在使用最近生成的解析器类并编译它们。

    1. 生成新类

    java -jar antlr-4.13.1-complete.jar simple_grail.g4
    

    2.编译生成的类

    javac -cp .:antlr-4.13.1-complete.jar *.java
    

    3. 运行TestRig

    java -cp .:antlr-4.13.1-complete.jar org.antlr.v4.gui.TestRig simple_grail prog simple0.grail
    

    这会产生错误:

    line 1:0 mismatched input '<' expecting <EOF>
    

    鉴于TEXT匹配太多,这是预期的。

    • 1

相关问题

  • 从 Type::new() 调用函数

  • 是否有可能将某个值提升到 Grammar TOP?

  • 如何使用 XPath/CSS 获取名称以冒号开头的属性的值/内容?

  • 用于识别指数符号数字和标识符的 ANTLR 语法

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    Vue 3:创建时出错“预期标识符但发现‘导入’”[重复]

    • 1 个回答
  • Marko Smith

    为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍,但在任何 Oracle JVM 上却不行?

    • 1 个回答
  • Marko Smith

    具有指定基础类型但没有枚举器的“枚举类”的用途是什么?

    • 1 个回答
  • Marko Smith

    如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误?

    • 6 个回答
  • Marko Smith

    `(表达式,左值) = 右值` 在 C 或 C++ 中是有效的赋值吗?为什么有些编译器会接受/拒绝它?

    • 3 个回答
  • Marko Smith

    何时应使用 std::inplace_vector 而不是 std::vector?

    • 3 个回答
  • Marko Smith

    在 C++ 中,一个不执行任何操作的空程序需要 204KB 的堆,但在 C 中则不需要

    • 1 个回答
  • Marko Smith

    PowerBI 目前与 BigQuery 不兼容:Simba 驱动程序与 Windows 更新有关

    • 2 个回答
  • Marko Smith

    AdMob:MobileAds.initialize() - 对于某些设备,“java.lang.Integer 无法转换为 java.lang.String”

    • 1 个回答
  • Marko Smith

    我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

    • 1 个回答
  • Martin Hope
    Aleksandr Dubinsky 为什么 InetAddress 上的 switch 模式匹配会失败,并出现“未涵盖所有可能的输入值”? 2024-12-23 06:56:21 +0800 CST
  • Martin Hope
    Phillip Borge 为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍,但在任何 Oracle JVM 上却不行? 2024-12-12 20:46:46 +0800 CST
  • Martin Hope
    Oodini 具有指定基础类型但没有枚举器的“枚举类”的用途是什么? 2024-12-12 06:27:11 +0800 CST
  • Martin Hope
    sleeptightAnsiC `(表达式,左值) = 右值` 在 C 或 C++ 中是有效的赋值吗?为什么有些编译器会接受/拒绝它? 2024-11-09 07:18:53 +0800 CST
  • Martin Hope
    The Mad Gamer 何时应使用 std::inplace_vector 而不是 std::vector? 2024-10-29 23:01:00 +0800 CST
  • Martin Hope
    Chad Feller 在 5.2 版中,bash 条件语句中的 [[ .. ]] 中的分号现在是可选的吗? 2024-10-21 05:50:33 +0800 CST
  • Martin Hope
    Wrench 为什么双破折号 (--) 会导致此 MariaDB 子句评估为 true? 2024-05-05 13:37:20 +0800 CST
  • Martin Hope
    Waket Zheng 为什么 `dict(id=1, **{'id': 2})` 有时会引发 `KeyError: 'id'` 而不是 TypeError? 2024-05-04 14:19:19 +0800 CST
  • Martin Hope
    user924 AdMob:MobileAds.initialize() - 对于某些设备,“java.lang.Integer 无法转换为 java.lang.String” 2024-03-20 03:12:31 +0800 CST
  • Martin Hope
    MarkB 为什么 GCC 生成有条件执行 SIMD 实现的代码? 2024-02-17 06:17:14 +0800 CST

热门标签

python javascript c++ c# java typescript sql reactjs html

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve