问题
我有一个格式如下的日志文件:
2018/12/05 22:43:14 [ChestShop] User bought 1 Boat for 8.00 from Admin Shop at [...] -246, 65, 61
2019/01/02 10:09:38 [ChestShop] User sold 64 Sea Lantern for 27840.00 to Admin Shop at [...] -234, 61, 45
2019/01/02 10:09:38 [ChestShop] User sold 48 Sea Lantern for 20880.00 to Admin Shop at [...] -234, 61, 45
2019/01/02 10:09:42 [ChestShop] User sold 2 Prismarine Bricks for 248.00 to Admin Shop at [...] -233, 62, 45
我想从中提取某些信息并将它们显示在汇总列表中。
我想总结的信息是名称、数量和销售价值。销售价值是列出数量的总销售价值。名称(Sea Lantern、Prismarine Bricks 等)以及数量(名称左侧的数字)和销售价值( “for”右侧的数字)可以多次出现在此日志文件中。名称可能包含多个空格(从不超过 4 个)或根本没有。
... ... [...] ... ... 2 Prismarine Bricks ... 248.00 ... ... ... ... [...] ..., ..., ...
最好,我希望摘要看起来像:
totalQuantity1 uniqueName1 totalSellValue1
totalQuantity2 uniqueName2 totalSellValue2
根据对命令的微小更改,按 totalQuantity 或 totalSellValue 排序。
我解决问题的尝试
我发现我可以使用以下命令来获取最常出现的项目的列表以及它们在日志文件中出现的次数,按它们出现的次数排序(这不是我想要的):
cat ChestShop.log | grep -w sold | cut -d ' ' -f 7,8,9,10,11 | awk -F 'for' '{print $1}' | sort | uniq -c | sort -rn
该grep -w sold
命令仅用于区分买入和卖出,从上面的日志示例中可以看出,在比较买入和卖出时,只有两个词不同。
我还使用此命令从仅包含该项目数量的列表中汇总一个特定项目的数量:
cat ChestShop.log | grep -w sold | grep -w 'Magma Block' | cut -d ' ' -f 6 | paste -s -d+ - | bc
我已经尝试了无数其他对上述命令的修改,但还没有接近我想要的,上面的命令是我得到的最接近的。最好命令也应该尽可能短,或者如果这很困难,对命令的每个部分进行解释,以便我可以理解发生了什么(特别是如果 awk 以我使用过的任何其他方式使用) , 谢谢。
很感谢任何形式的帮助。
使用普通的 awk,您可以执行以下操作:
使用 GNU Awk (
gawk
) 4.0+ 版,您可以按如下方式控制排序顺序:(按数量降序排列)或
(按值升序排序)。请注意,所有这些都假定您的文件格式如最初所示,每个项目的名称由第 7 个和第 8 个空格分隔的字段组成。如果不是,那么您可能需要使用正则表达式对其进行解析并捕获元素 - 例如,使用 GNU Awk:
请注意,这假定 keyord
for
不能出现在该行的其他位置。如果您无权访问 GNU Awk,那么使用另一个正则表达式工具对文件进行预处理以插入适当的分隔符可能会更简单,这样您就可以使用带有该分隔符的 POSIX awk。