为什么编译器在这里错过矢量化？

Question

Scheff's Cat

Asked: 2024-01-22 19:37:28 +0800 CST2024-01-22 19:37:28 +0800 CST 2024-01-22 19:37:28 +0800 CST

具有八进制序列的 C++20 UTF-8 字符串文字

772

在将遗留代码移植到 C++20 时，我将字符串文字（带有预期的 UTF-8 编码文本）替换为 UTF-8 字符串文字（前缀为u8）。

因此，我遇到了八进制序列的问题，我过去用它来逐字节编码 UTF-8 序列：

虽然
"\303\274"是的正确编码ü，但
u8"\303\274"最终为Ã¼。

我对此进行了进一步调查，并在cppreference.com上发现：

对于每个数字转义序列，以由v转义序列中的数字序列组成的八进制或十六进制数表示的整数值给出，T 作为字符串文字的数组元素类型（请参见上表）：

如果v不超过 T 的可表示值的范围，则转义序列贡献值为的单个代码单元v。

（强调我的）

用我自己的话说：在 UTF-8 字符串文字中，八进制 ( \ooo) 和十六进制 ( \xXX) 转义序列被解释为 Unicode 代码点，类似于 Unicode 序列 (\uXXXX和\UXXXXXXXX)。

因此，这对我来说似乎是合理的：对于 UTF-8 字符串文字，Unicode 转义序列应该优于按字节的八进制序列（我过去使用过）。

出于好奇（并且出于演示的目的），我对 coliru 做了一个小测试，并惊讶地发现使用g++ -std=c++20，八进制序列仍然被解释为单个字节。考虑到上面的内容，我得出结论：

MSVC似乎是正确的，而g++是错误的。

我制作了一个 MCVE，并在本地 Visual Studio 2019 中运行：

#include <iostream>
#include <string_view>

void dump(std::string_view text)
{
  const char digits[] = "0123456789abcdef";
  for (unsigned char c : text) {
    std::cout << ' '
      << digits[c >> 4]
      << digits[c & 0xf];
  }
}

#define DEBUG(...) std::cout << #__VA_ARGS__ << ";\n"; __VA_ARGS__ 

int main()
{
  DEBUG(const char* const text = "\344\270\255");
  DEBUG(dump(text));
  std::cout << '\n';
  DEBUG(const char8_t* const u8text = u8"\344\270\255");
  DEBUG(dump((const char*)u8text));
  std::cout << '\n';
  DEBUG(const char8_t* const u8textU = u8"\u4e2d");
  DEBUG(dump((const char*)u8textU));
  std::cout << '\n';
}

MSVC的输出：

const char* const text = "\344\270\255";
dump(text);
 e4 b8 ad
const char8_t* const u8text = u8"\344\270\255";
dump((const char*)u8text);
 c3 a4 c2 b8 c2 ad
const char8_t* const u8textU = u8"\u4e2d";
dump((const char*)u8textU);
 e4 b8 ad

^{（请注意，第一个}和第三^个文字的转储是相同的，而第二个转储则通过将每个八进制序列解释为 Unicode 代码点来生成 UTF-8 序列。）

相同的代码在 Compiler Explorer 中运行，使用g++ (13.2)编译：

const char* const text = "\344\270\255";
dump(text);
 e4 b8 ad
const char8_t* const u8text = u8"\344\270\255";
dump((const char*)u8text);
 e4 b8 ad
const char8_t* const u8textU = u8"\u4e2d";
dump((const char*)u8textU);
 e4 b8 ad

相同的代码在 Compiler Explorer 中运行，使用clang (17.0.1)编译：

const char* const text = "\344\270\255";
dump(text);
 e4 b8 ad
const char8_t* const u8text = u8"\344\270\255";
dump((const char*)u8text);
 e4 b8 ad
const char8_t* const u8textU = u8"\u4e2d";
dump((const char*)u8textU);
 e4 b8 ad

编译器资源管理器上的演示

我的结论是否正确，即 MSVC 根据 C++ 标准正确，而不是 g++ 和 clang？

之前通过网络搜索发现：

使用十六进制转义序列而不是八进制序列不会改变任何内容：Compiler Explorer 上的演示。

我更喜欢某种不寻常的八进制序列，因为它们仅限于 3 位数字，没有不相关的字符可能会无意中扩展它们 - 与十六进制序列相反。

更新：

当我准备为 MSVC 提交错误时，我意识到这已经完成了：
unicode 字符串文字中的转义序列被过度编码（不符合要求 => 编译器错误）

1 个回答

Voted

cpplearner · Answer 1 · 2024-01-22T19:54:36+08:00

Best Answer

cpplearner

2024-01-22T19:54:36+08:002024-01-22T19:54:36+08:00

用我自己的话说：在 UTF-8 字符串文字中，八进制 ( \ooo) 和十六进制 ( \xXX) 转义序列被解释为 Unicode 代码点，类似于 Unicode 序列 (\uXXXX和\UXXXXXXXX)。

不，这是不正确的。在 UTF-8 中，代码单元表示 8 位单元（= 字节），Unicode代码点由一个或多个代码单元的序列表示。每个八进制转义序列对应于一个代码单元，这与对应于代码点的 Unicode 转义序列不同。

所以GCC和Clang是正确的，而MSVC是错误的。

4

具有八进制序列的 C++20 UTF-8 字符串文字

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

具有八进制序列的 C++20 UTF-8 字符串文字

1 个回答

相关问题