Lock Condition.notify está lançando java.lang.IllegalMonitorStateException

Question

George

Asked: 2025-04-02 19:41:47 +0800 CST2025-04-02 19:41:47 +0800 CST 2025-04-02 19:41:47 +0800 CST

Jsoup 1.19.1 StreamParser duplicando hrefs em documentos html válidos

772

Ao usar StreamParser.parse(), é descoberto que os links hrefs são duplicados, enquanto que usar Jsoup.parse() retorna o documento esperado. Existe algum motivo pelo qual StreamParser criaria referências adicionais para href?

Esse é o comportamento esperado ao usar um StreamParser?

String s1= "<!DOCTYPE html>\n"
                + "<html>\n"
                + "<head>\n"
                + "  <title></title>\n"
                + "</head>\n"
                + "<body>\n"
                + "  <a href=\"https://fake.com/:x:/g/gibberishtext\">Some link</a>\n"
                + "</body>\n"
                + "</html>";

  StreamParser streamParser = new StreamParser(Parser.htmlParser());
  StreamParser parse = streamParser.parse(s1, "");
  parse.stream().forEach(System.out::println);

// Saída do StreamParser, Retorna cinco referências para href

<title></title>
<head>
 <title></title>
</head>
<a href="https://fake.com/:x:/g/gibberishtext">Some link</a>
<body>
 <a href="https://fake.com/:x:/g/gibberishtext">Some link</a>
</body>
<a href="https://fake.com/:x:/g/gibberishtext">Some link</a>
<body>
 <a href="https://fake.com/:x:/g/gibberishtext">Some link</a>
</body>
<html>
 <head>
  <title></title>
 </head>
 <body>
  <a href="https://fake.com/:x:/g/gibberishtext">Some link</a>
 </body>
</html>
<!doctype html>
<html>
 <head>
  <title></title>
 </head>
 <body>
  <a href="https://fake.com/:x:/g/gibberishtext">Some link</a>
 </body>
</html>

Enquanto usar Jsoup.parse() retorna o documento esperado

 Document parse1 = Jsoup.parse(s1);
 System.out.println(parse1.toString());

//Saída do uso do Jsoup 1.19.1

<!doctype html>
<html>
 <head>
  <title></title>
 </head>
 <body>
  <a href="https://fake.com/:x:/g/gibberishtext">Some link</a>
 </body>
</html>

Mais atualizações...

Agora para tornar isso mais interessante...

Se eu chamar Jsoup.parse(s1).stream().forEach(System.out::println), ele retornará um resultado semelhante ao StreamParser.

Por que chamar stream() está causando duplicação?

1 respostas

Voted

Janez Kuhar · Answer 1 · 2025-04-02T22:11:08+08:00

Essa é uma pergunta interessante! Na verdade, há dois tipos de duplicações acontecendo.

1ª Duplicação

Primeiro, quando você imprime um elemento, você também imprime todos os seus filhos. Isso torna sua saída um pouco verbosa. Talvez seja mais prudente substituir:

parse.stream().forEach(System.out::println);

com algo como:

parse.stream().forEach(el -> System.out.println(el.tagName()));

para imprimir somente tags de elementos.

2ª Duplicação

Corrigindo 1 , você observaria a seguinte saída:

title
head
a
body
a
body
html
#root

Ainda há alguma duplicação, mas não tanto. Vamos primeiro focar na ordem de saída. Com StreamParser...

Os elementos são emitidos à medida que são concluídos... [Fonte]

Isso significa que sempre que um elemento completo for analisado, ele será emitido . É fácil verificar que titleé o primeiro elemento que é totalmente analisado.

Entretanto, a seguinte sequência:

a
body

aparecer duas vezes na saída parece errado. Alguém esperaria apenas uma ocorrência. Não sei dizer se isso é um comportamento intencional ou um bug.

Mas se eu substituir:

StreamParser streamParser = new StreamParser(Parser.htmlParser());

com:

StreamParser streamParser = new StreamParser(Parser.xmlParser());

Obtenho a saída que esperava:

title
head
a
body
html
#root

Jsoup 1.19.1 StreamParser duplicando hrefs em documentos html válidos

1ª Duplicação

2ª Duplicação

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Jsoup 1.19.1 StreamParser duplicando hrefs em documentos html válidos

1 respostas

1ª Duplicação

2ª Duplicação

relate perguntas