我有一些文本文件,看起来像这样:
Introduction and some meta data
[00:00.000 --> 00:04.380] Lorem ipsum dolor sit amet, consectetur adipiscing elit.
[00:04.980 --> 00:07.200] Sed mattis varius ligula vel egestas.
我想统计字符但排除第一行和时间戳,即只统计其中的字符Lorem ipsum dolor sit amet, consectetur adipiscing elit. Sed mattis varius ligula vel egestas.
时间戳的长度各不相同(也可能有小时,在上面的示例中只有分钟)。
我该怎么做呢?
一种选择是将问题分解成多个部分,然后解决这些部分。
我将使用您的示例输入:
我想跳过第一行
一种选择是使用
tail
:意思
-n +2
是“打印从第 2 行开始的所有内容”我想省略时间戳
一种选择是使用类似
sed
修剪它的东西:该选项的
sed
意思是“替换以该开头的所有内容,后面[
不跟任何内容(后跟两个空格)。”]
]
]
我想获取字符数
现在解决了前两部分,获取字符数是一个简单的应用
wc
或者如果数据位于文件 FILE 中