Displayname71提出的问题 -computer

Displayname71

Asked: 2021-11-19 00:46:12 +0800 CST

如何在不更改任何已经是有效 UTF-8 的字符的情况下执行 ISO-8859-1 到 UTF-8 文本文件的转换

考虑一个看起来像这样的文本文件：

This’s ISO-8859-1
This’s UTF-8

幕后，’第一行中的花括号字符被编码为 ISO-8859-1，’第二行中的相同字符被编码为 UTF-8

该文件如下所示cat -v（-v选项显示不可打印的字符）：

$ cat -v testing.txt
ThisM-4s ISO-8859-1
ThisM-bM-^@M-^Ys UTF-8

目标是将文件标准化为 UTF-8，这意味着第一行需要更改，第二行不得更改。但是，如果您尝试使用等将 ISO-8859-1 转换为 UTF-8 iconv，recode则会通过将 UTF-8’转换为乱码字符来破坏文件的第二行

这是一个使用iconv证明第二行被破坏的示例：

$ cat testing.txt | iconv -f iso-8859-1 -t utf-8
This´s ISO-8859-1
Thisâ€™s UTF-8

recode行为类似，修改第二行：

$ recode iso-8859-1..utf-8 testing.txt
$ cat testing.txt
This´s ISO-8859-1
Thisâ€™s UTF-8

我想做的是跳过 UTF-8´字符的转换（但仍将其传递给输出，不要将其剥离），因为它已经是 UTF-8，因此无需转换它

但我还没有找到任何方法来做到这一点

这个简化的文本文件仅用作示例——需要一个也适用于更大文件的解决方案

例如，文件可能在第 30、40、100’行包含 UTF-8 字符；以及第’50、60 和 200 行的 ISO-8859-1 字符。文件可能不包含 ISO-8859-1’字符的任何实例（在这种情况下，不需要更改文件）。可以安全地假设该文件不会在同一行上同时包含 ISO-8859-1’字符和 UTF-8’字符，如果这会使问题范围更容易。

我看了这个问题：如何有条件地重新编码为 UTF-8？

但是它似乎没有考虑文件包含混合 ISO-8859-1 和 UTF-8 的情况

是的，我知道在同一个文件中混合编码不是一个好主意

但它已经在几年前发生了，目标是把它全部清理干净，这样就不会再有问题了

Displayname71

Asked: 2021-04-20 08:58:33 +0800 CST

ffmpeg 将 JPEG 编码的 MOV 视频拆分为帧，无需重新编码

我有一个来自旧数码相机的 MOV 视频文件，其中视频流只是一系列 JPEG。我试图在不重新编码的情况下提取这些 JPEG（或至少尽可能接近原始图像），但是使用 ffmpeg 提取的 JPEG 比预期的要小。

如果有更好的工具来完成这项工作，我愿意使用 ffmpeg 以外的东西。

我曾经尝试分割帧的命令：

ffmpeg -i original.mov -f jpeg img%04d.jpg

检查原始视频中帧的文件大小：

# ffprobe -show_frames original.mov | grep pkt_size
pkt_size=25600
pkt_size=25600
...

(Total size ~944 KB)

但提取的 JPEG 文件要小得多：

# ffprobe -show_frames img%04d.jpg | grep pkt_size
pkt_size=10554
pkt_size=15362
...

(Total size ~220 KB)

# du -ch *.jpg | grep total
220K    total

还验证了哈希值不同：

# ffmpeg -i original.mov -f framehash -

0,          0,          0,        1,   153600, 7ca21c4c396d15a4b4b4ebfbf70e9dc36ef8fb3ae12409822e34a25d0c9d5918
0,          1,          1,        1,   153600, e2ee2497513c032dab785d5ec65c9c96da47b6afa562b96a8b56b9c9169af4e0
...

# ffmpeg -i img%04d.jpg -f framehash -

0,          0,          0,        1,   153600, 09d39759af66c7d83bee706bd60d9e76e8e57925a49a8e2b07ff7a4eb811f986
0,          1,          1,        1,   153600, 96678aad212668c496944050b9d451c306edc09c5eaad0e14ce0dabbfba5ab3e
...

我知道可能无法将它们提取得如此完美以使哈希匹配，但文件大小相差甚远，所以我知道 ffmpeg 正在进行某种重新编码。

如何在不更改任何已经是有效 UTF-8 的字符的情况下执行 ISO-8859-1 到 UTF-8 文本文件的转换

ffmpeg 将 JPEG 编码的 MOV 视频拆分为帧，无需重新编码

如何减少“vmmem”进程的消耗？

从 Microsoft Stream 下载视频

Google Chrome DevTools 无法解析 SourceMap：chrome-extension

Windows 照片查看器因为内存不足而无法运行？

支持结束后如何激活 WindowsXP？

远程桌面间歇性冻结

子网掩码 /32 是什么意思？

鼠标指针在 Windows 中按下的箭头键上移动？

VirtualBox 无法以 VERR_NEM_VM_CREATE_FAILED 启动

应用程序不会出现在 MacBook 的摄像头和麦克风隐私设置中

Displayname71's questions