AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / ubuntu / 问题 / 796947
Accepted
wb9688
wb9688
Asked: 2016-07-11 02:05:16 +0800 CST2016-07-11 02:05:16 +0800 CST 2016-07-11 02:05:16 +0800 CST

为什么我的排序文件更大?

  • 772

我有一个 2958616 字节的文本文件。当我运行时 sort < file.txt | uniq > sorted-file.txt,我得到一个 3213965 字节的文本文件。为什么我的排序文本文件更大?

您可以在此处下载文本文件。

text-processing
  • 2 2 个回答
  • 3383 Views

2 个回答

  • Voted
  1. Best Answer
    terdon
    2016-07-11T04:21:09+08:002016-07-11T04:21:09+08:00

    虽然您的原始文件有以 结尾的行\n,但您的排序文件有\r\n. 添加\r是改变大小的原因。

    为了说明,当我在我的 Linux 系统上运行您的命令时会发生以下情况:

    $ sort < file.txt | uniq > sorted-file.linux.txt
    $ ls -l file.txt sorted-file.linux.txt 
    -rw-r--r-- 1 terdon terdon 2958616 Jul 10 12:11 file.txt
    -rw-r--r-- 1 terdon terdon 2942389 Jul 10 15:15 sorted-file.linux.txt
    $ wc -l file.txt sorted-file.linux.txt 
    273882 file.txt
    271576 sorted-file.linux.txt
    

    如您所见,排序后的重复数据文件短了几行,因此也少了几个字节。但是,您的文件不同:

    $ wc -l sorted-file.linux.txt sorted-file.txt 
    271576 sorted-file.linux.txt
    271576 sorted-file.txt
    

    这两个文件的行数完全相同,但是:

    $ ls -l file.txt sorted-file.linux.txt sorted-file.txt 
    -rw-r--r-- 1 terdon terdon 2958616 Jul 10 12:11 file.txt
    -rw-r--r-- 1 terdon terdon 2942389 Jul 10 15:15 sorted-file.linux.txt
    -rw-r--r-- 1 terdon terdon 3213965 Jul 10 12:11 sorted-file.txt
    

    我从你的链接下载的那个sorted-file.txt更大。如果我们现在检查第一行,我们可以看到额外的\r:

    $ head -n1 sorted-file.txt | od -c
    0000000   a  \r  \n
    0000003
    

    我在 Linux 上创建的版本中不存在以下内容:

    $ head -n1 sorted-file.linux.txt | od -c
    0000000   a  \n
    0000002
    

    如果我们现在\r从您的文件中删除:

    $ tr -d '\r' < sorted-file.txt > new-sorted-file.txt
    

    我们得到了预期的结果,一个比原始文件更小的文件,就像我在我的系统上创建的一样:

    $ ls -l sorted-file.linux.txt new-sorted-file.txt file.txt
    -rw-r--r-- 1 terdon terdon 2958616 Jul 10 12:11 file.txt
    -rw-r--r-- 1 terdon terdon 2942389 Jul 10 15:19 new-sorted-file.txt
    -rw-r--r-- 1 terdon terdon 2942389 Jul 10 15:15 sorted-file.linux.txt
    
    • 42
  2. Byte Commander
    2016-07-11T04:22:51+08:002016-07-11T04:22:51+08:00

    hexdump揭示它!

    $ hexdump -cn 32 file.txt 
    0000000   a   d   h   d  \n   a   d   s   l  \n   a   m   v   b  \n   a
    0000010   o   v  \n   a   o   w  \n   a   r   o   b  \n   a   s   f   a
    0000020
    
    $ hexdump -cn 32 my-sorted.txt 
    0000000   a  \n   a   a  \n   a   a   a  \n   a   a   d  \n   a   a   d
    0000010   s  \n   a   a   f   j   e  \n   a   a   f   j   e   s  \n   a
    0000020 
    
    $ hexdump -cn 32 sorted-file.txt 
    0000000   a  \r  \n   a   a  \r  \n   a   a   a  \r  \n   a   a   d  \r
    0000010  \n   a   a   d   s  \r  \n   a   a   f   j   e  \r  \n   a   a
    0000020   
    

    您的排序文件更大,因为它使用 Windows 行尾\r\n(两个字节)而不是 Linux 行尾\n(一个字节)。

    可能是您在 Windows 下使用诸如cygwinWindows 10 之类的工具或这个新的 Linux 子系统运行该命令吗?或者你有没有在 Wine 中运行过一些东西?

    • 25

相关问题

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    如何运行 .sh 脚本?

    • 16 个回答
  • Marko Smith

    如何安装 .tar.gz(或 .tar.bz2)文件?

    • 14 个回答
  • Marko Smith

    如何列出所有已安装的软件包

    • 24 个回答
  • Marko Smith

    无法锁定管理目录 (/var/lib/dpkg/) 是另一个进程在使用它吗?

    • 25 个回答
  • Martin Hope
    Flimm 如何在没有 sudo 的情况下使用 docker? 2014-06-07 00:17:43 +0800 CST
  • Martin Hope
    Ivan 如何列出所有已安装的软件包 2010-12-17 18:08:49 +0800 CST
  • Martin Hope
    La Ode Adam Saputra 无法锁定管理目录 (/var/lib/dpkg/) 是另一个进程在使用它吗? 2010-11-30 18:12:48 +0800 CST
  • Martin Hope
    David Barry 如何从命令行确定目录(文件夹)的总大小? 2010-08-06 10:20:23 +0800 CST
  • Martin Hope
    jfoucher “以下软件包已被保留:”为什么以及如何解决? 2010-08-01 13:59:22 +0800 CST
  • Martin Hope
    David Ashford 如何删除 PPA? 2010-07-30 01:09:42 +0800 CST

热门标签

10.10 10.04 gnome networking server command-line package-management software-recommendation sound xorg

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve