George提出的问题 -coding

George

Asked: 2025-04-02 19:41:47 +0800 CST

Jsoup 1.19.1 StreamParser duplicando hrefs em documentos html válidos

Ao usar StreamParser.parse(), é descoberto que os links hrefs são duplicados, enquanto que usar Jsoup.parse() retorna o documento esperado. Existe algum motivo pelo qual StreamParser criaria referências adicionais para href?

Esse é o comportamento esperado ao usar um StreamParser?

String s1= "<!DOCTYPE html>\n"
                + "<html>\n"
                + "<head>\n"
                + "  <title></title>\n"
                + "</head>\n"
                + "<body>\n"
                + "  <a href=\"https://fake.com/:x:/g/gibberishtext\">Some link</a>\n"
                + "</body>\n"
                + "</html>";

  StreamParser streamParser = new StreamParser(Parser.htmlParser());
  StreamParser parse = streamParser.parse(s1, "");
  parse.stream().forEach(System.out::println);

// Saída do StreamParser, Retorna cinco referências para href

<title></title>
<head>
 <title></title>
</head>
<a href="https://fake.com/:x:/g/gibberishtext">Some link</a>
<body>
 <a href="https://fake.com/:x:/g/gibberishtext">Some link</a>
</body>
<a href="https://fake.com/:x:/g/gibberishtext">Some link</a>
<body>
 <a href="https://fake.com/:x:/g/gibberishtext">Some link</a>
</body>
<html>
 <head>
  <title></title>
 </head>
 <body>
  <a href="https://fake.com/:x:/g/gibberishtext">Some link</a>
 </body>
</html>
<!doctype html>
<html>
 <head>
  <title></title>
 </head>
 <body>
  <a href="https://fake.com/:x:/g/gibberishtext">Some link</a>
 </body>
</html>

Enquanto usar Jsoup.parse() retorna o documento esperado

 Document parse1 = Jsoup.parse(s1);
 System.out.println(parse1.toString());

//Saída do uso do Jsoup 1.19.1

<!doctype html>
<html>
 <head>
  <title></title>
 </head>
 <body>
  <a href="https://fake.com/:x:/g/gibberishtext">Some link</a>
 </body>
</html>

Mais atualizações...

Agora para tornar isso mais interessante...

Se eu chamar Jsoup.parse(s1).stream().forEach(System.out::println), ele retornará um resultado semelhante ao StreamParser.

Por que chamar stream() está causando duplicação?

Jsoup 1.19.1 StreamParser duplicando hrefs em documentos html válidos

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

George's questions