Expressões `let` nesta posição são instáveis

Question

mmdts

Asked: 2024-10-24 11:22:00 +0800 CST2024-10-24 11:22:00 +0800 CST 2024-10-24 11:22:00 +0800 CST

Truncamento seguro UTF-8 de uma string Go para menos de N bytes

772

Às vezes, preciso me encontrar truncando uma string para caber em um número específico de bytes. O problema de fazer isso em Go é que se você fizer isso s[:1_000_000], dado que sé uma string utf-8 válida , você pode acabar cortando bem no meio de um ponto de código utf-8 que pode ter de 1 a 4 bytes de comprimento, deixando você com uma runa inválida.

Algumas pessoas (e os LLMs treinados em suas ideias) tentariam usar utf8.ValidString, ou for i := range sfazer isso, pois ambos garantiriam uma runa válida. No entanto, essas pessoas estariam fazendo uma tarefa de tempo constante em tempo linear.

Eu escrevi uma função de truncamento seguro de tempo constante:

import "unicode/utf8"

// UTF8SafeTruncateNBytes Truncates a **valid** utf-8 string `s` to `n` bytes (not n UTF-8 characters),
// ensuring that the string is not truncated in the middle of a UTF-8 character.
func UTF8SafeTruncateNBytes(s string, n int) string {
    if n >= len(s) {
        return s
    }
    for i := n; i >= n-3 && i >= 0; i-- {
        if utf8.RuneStart(s[i]) {
            return s[:i]
            // Edit: This was:
            //if r, size := utf8.DecodeRuneInString(s[i:]); r != utf8.RuneError {
            //  return s[:i+size]
            //}
            // but got fixed because of the picked solution. This implementation is now correct,
            // and, in fact, equivalent, except that it only checks one byte instead of backing up forever.
        }
    }

    // Fallback in the case that the user lied, and passed a string that is not a valid utf-8 string.
    // It would be wise to return an error or "" here if this is a standard-library
    // function to allow the user to check for it.
    return s[:n]
}

As perguntas são as seguintes:

Isso vai funcionar ou há algum caso especial que deixei passar?
Existe uma maneira melhor e mais eloquente de fazer isso que eu esqueci, ou uma função de biblioteca padrão que já faz isso?
Por que isso não é uma função de biblioteca padrão em "unicode/utf8"? Parece que é o nível certo de frequência de uso e complexidade para garantir ter uma função de biblioteca padrão. Devo propor isso na página de problemas deles ?

1 respostas

Voted

Finn Bear · Answer 1 · 2024-10-24T12:00:55+08:00

Best Answer

Finn Bear

2024-10-24T12:00:55+08:002024-10-24T12:00:55+08:00

Sua implementação, embora muito bem motivada, não está correta:

UTF8SafeTruncateNBytes("世", 1) // "世" (len = 3)

Você deve considerar usar uma implementação existente e otimizada: https://pkg.go.dev/tailscale.com/util/truncate :

import "tailscale.com/util/truncate"
truncate.String("世", 1) // "" (len = 0)

Uma proposta para incluir isso na biblioteca padrão não faria mal, mas esteja ciente de que ela pode ser rejeitada por motivos semelhantes aos de https://github.com/golang/go/issues/56885 .

2

Truncamento seguro UTF-8 de uma string Go para menos de N bytes

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Truncamento seguro UTF-8 de uma string Go para menos de N bytes

1 respostas

relate perguntas