这个位置的“let”表达式是不稳定的

Question

mmdts

Asked: 2024-10-24 11:22:00 +0800 CST2024-10-24 11:22:00 +0800 CST 2024-10-24 11:22:00 +0800 CST

将 Go 字符串以 UTF-8 安全截断为少于 N 个字节

772

我有时需要截断字符串以适应特定数量的字节。在 Go 中执行此操作的问题是，如果您这样做s[:1_000_000]，假设这s是一个有效的utf-8 字符串，您可能最终会在 utf-8 代码点的中间进行切割，该代码点可能为 1~4 个字节长，从而留下无效的符文。

有些人（以及接受过他们思想培训的法学硕士）会尝试使用utf8.ValidString或for i := range s来做到这一点，因为这两种方法都可以确保符文有效。但是，这些人将在线性时间内完成恒定时间任务。

我编写了一个恒定时间的安全截断函数：

import "unicode/utf8"

// UTF8SafeTruncateNBytes Truncates a **valid** utf-8 string `s` to `n` bytes (not n UTF-8 characters),
// ensuring that the string is not truncated in the middle of a UTF-8 character.
func UTF8SafeTruncateNBytes(s string, n int) string {
    if n >= len(s) {
        return s
    }
    for i := n; i >= n-3 && i >= 0; i-- {
        if utf8.RuneStart(s[i]) {
            return s[:i]
            // Edit: This was:
            //if r, size := utf8.DecodeRuneInString(s[i:]); r != utf8.RuneError {
            //  return s[:i+size]
            //}
            // but got fixed because of the picked solution. This implementation is now correct,
            // and, in fact, equivalent, except that it only checks one byte instead of backing up forever.
        }
    }

    // Fallback in the case that the user lied, and passed a string that is not a valid utf-8 string.
    // It would be wise to return an error or "" here if this is a standard-library
    // function to allow the user to check for it.
    return s[:n]
}

问题如下：

这会起作用吗？或者我是否遗漏了一个极端情况？
有没有我错过的更好的、更有说服力的方法来做到这一点，或者已经有一个标准库函数可以做到这一点？
为什么这不是下的标准库函数"unicode/utf8"？似乎它的使用频率和复杂性恰好足以保证拥有标准库函数。我应该在他们的问题页面中提出它吗？

1 个回答

Voted

Finn Bear · Answer 1 · 2024-10-24T12:00:55+08:00

Best Answer

Finn Bear

2024-10-24T12:00:55+08:002024-10-24T12:00:55+08:00

您的实施虽然动机很好，但却不正确：

UTF8SafeTruncateNBytes("世", 1) // "世" (len = 3)

您应该考虑使用现有的、优化的实现：https://pkg.go.dev/tailscale.com/util/truncate：

import "tailscale.com/util/truncate"
truncate.String("世", 1) // "" (len = 0)

将其包含在标准库中的提议不会有害，但请注意，它可能会因与https://github.com/golang/go/issues/56885类似的原因而被拒绝。

2

将 Go 字符串以 UTF-8 安全截断为少于 N 个字节

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

将 Go 字符串以 UTF-8 安全截断为少于 N 个字节

1 个回答

相关问题