Por que a correspondência de padrões com o switch no InetAddress falha com 'não cobre todos os valores de entrada possíveis'?

Question

An5Drama

Asked: 2024-04-11 17:40:17 +0800 CST2024-04-11 17:40:17 +0800 CST 2024-04-11 17:40:17 +0800 CST

regex para o padrão de um espaço opcional antes das palavras chinesas em lua

772

Tentei usar string.match("Í",'%s?[\u{4e00}-\u{9FFF}]+')algo semelhante a como trabalhamos em JS ou outros. Mas corresponderá a um caractere desnecessário como o 'Í' acima.

A implementação oficial da correspondência de UTF-8 está usando eacape, \dddmas \u{XXX}parece falhar porque

Os recursos de correspondência de padrões de Lua funcionam byte por byte

Temporariamente, eu uso a solução alternativa instável semelhante a utf8.charpattern: string.match("Í",'%s?[\228-\233][%z\1-\191][%z\1-\191]')com base na codificação utf8, a saída será executada nile funcionará para verificar cjk como '我', embora tenha um intervalo errado para o segundo byte da esquerda.

P:

Como resolver esse problema com regex?

1 respostas

Voted

Luatic · Answer 1 · 2024-04-11T18:27:12+08:00

Os padrões Lua não são expressões regulares. As expressões regulares possuem características que os padrões Lua não possuem (por exemplo, agrupamento, possivelmente aninhado e escolha), e os padrões Lua possuem características que as expressões regulares (pelo menos no sentido linguístico formal) não possuem (por exemplo, %b, %1).
Você está certo: os padrões Lua não operam em "pontos de código", eles operam em bytes. É por isso que \u{4e00}-\u{9FFF}não funciona: o que Lua vê aqui é \228\184\128-\233\191\191equivalente a \184\191\228\128-\233, o que é muito diferente do que você deseja (notavelmente, o intervalo é repentinamente de \128a \233). Considero a interação de -"caracteres" multibyte que aparecem como um único ponto de código nas fontes um pouco como uma arma de fogo.

Como você deseja uma solução Lua pura, e dada a simplicidade do seu padrão, uma solução artesanal é viável:

local codepoints = {}
for _, c in utf8.codes(s) do
    if utf8.char(c):match"^%s$" and codepoints[1] == nil then
        codepoints[1] = c
    elseif c >= 0x4e00 and c <= 0x9FFF then
        table.insert(codepoints, c)
    else
        codepoints = {}
    end
end
local match = utf8.char(table.unpack(codepoints))
if match:match"^%s?$" then match = nil end -- single space or empty string

regex para o padrão de um espaço opcional antes das palavras chinesas em lua

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

regex para o padrão de um espaço opcional antes das palavras chinesas em lua

1 respostas

relate perguntas