我使用图像文本生成器从术语表图像中提取信息,如下所示:
word1 :meaning1
word2 :meaning2
word3 :meaning3
word4 :meaning4
这导致了一个如下所示的文本文件:
word1
word2
word3
word4
:meaning1
:meaning2
:meaning3
:meaning4
我觉得从 pdf 文档复制类似术语表的文本时,这种情况也很常见。有没有什么方便的方法来重新创建原始文本配置?最好创建链接单词和含义的列,如果没有单元格就更好了。
我想我正在寻找一种将几行的内容粘贴/附加到几个现有行的末尾的方法。
我能想到的唯一解决方案是将所有内容粘贴到 LibreOffice writer 中并选择列,但这只会在演示方面重新创建源文档,并且没有实际用途。
问题是:
如何将提取的文本更改为两列,使其看起来像图片中的那样,如下所示:
word1 :meaning1
word2 :meaning2
word3 :meaning3
word4 :meaning4
我更喜欢 GUI 工具,但也适用非高级 CLI 解决方案。
使用以下命令的非高级 CLI 解决方案
pr
:或使用
rs
命令:中高级 CLI 解决方案具有
awk
:基于正则表达式模式,即前导冒号
^:
或无前导冒号^[^:]
(假设一致),如下所示:或者基于行号,即将文件分为前半部分和后半部分,如下所示:
使用高级文本编辑器或 IDE,例如Geany。
例如,使用Geany,您可以
Ctrl
在用鼠标选择文本的同时垂直编辑文本。选择“垂直”后,只需将其粘贴到第一行的末尾,然后根据需要多次按 Tab 键,具体取决于列之间所需的空间。