Expressões `let` nesta posição são instáveis

Question

rwutscher

Asked: 2024-10-18 00:33:44 +0800 CST2024-10-18 00:33:44 +0800 CST 2024-10-18 00:33:44 +0800 CST

A função Rust from_utf8 não consegue ler algumas strings ASCII (sequência utf-8 inválida de 1 byte)

772

Estou tentando converter um vetor de bytes ASCII em uma string rust. Encontrei a std::str::from_utf8()função, que deve ser capaz de manipular todas as strings ASCII. Por algum motivo, ela não consegue ler o símbolo de copyright, como mostrado neste exemplo de código:

let buf = vec![0xA9, 0x41, 0x52, 0x54]; //©ART
println!(
    "{}",
    match std::str::from_utf8(&buf) {
        Ok(x) => x,
        Err(x) => {
            println!("ERROR: {}", x);
            "failed"
        }
    }
);
// > ERROR: invalid utf-8 sequence of 1 bytes from index 0

De acordo com https://www.ascii-code.com/CP1252/169 0xA9 é um caractere ASCII válido e, de acordo com https://www.compart.com/en/unicode/U+00A9, também é um caractere UTF-8 válido.

Eu também tentei String::from_utf8_lossy(), mas o resultado que obtive �ARTfoi o que a string não deveria ser.

Estou esquecendo de alguma coisa aqui ou é um bug na maneira como o Rust manipula o ASCII?

1 respostas

Voted

kmdreko · Answer 1 · 2024-10-18T00:55:38+08:00

0xA9não é ASCII; ASCII é apenas uma codificação de 7 bits e este valor tem o 8º bit definido.

Ele pode ser interpretado como ASCII estendido , o que significa que requer pré-conhecimento de um conjunto de caracteres para interpretá-lo como "©". Você pode ver no seu link que é "©" no conjunto de caracteres Windows-1252, mas outro link mostra que 0xA9é "⌐" no conjunto de caracteres Code page 437. E há muitos outros conjuntos de caracteres.

Como 0xA9não é ASCII, não é UTF8 - pelo menos não sozinho. O 8º bit definido indica que é parte de uma sequência multibyte e, mais importante, a representação de bits de 0xA9começa com 10xxxxxxo que significa que é o meio de uma sequência multibyte (veja UTF8 na wikipedia ). Então, qualquer decodificador UTF8 que encontrar isso (sem um caractere de início multibyte precedente) irá rejeitá-lo.

Se você quiser usar um conjunto de caracteres ASCII estendido e decodificá-lo para uma string Rust, você precisaria decodificá-lo de forma diferente. Um crate como encoding-rs provavelmente poderia fazer isso.

A função Rust from_utf8 não consegue ler algumas strings ASCII (sequência utf-8 inválida de 1 byte)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

A função Rust from_utf8 não consegue ler algumas strings ASCII (sequência utf-8 inválida de 1 byte)

1 respostas

relate perguntas