Digamos que sou um psicopata que nomeia meus arquivos como:
[-] `{title: "Non-Metadata", id: "s4a4ji"}`{.JSON5}.dir
Essa é a minha melhor tentativa de criar o nome de arquivo mais horrível e plausível possível - ele usa Pandoc Markdown e JSON5.
POSIX
Se eu inserir isso ls
, ele me fornecerá uma versão que pode ser escapada de forma que qualquer shell compatível com POSIX (sh, é claro, mas também bash
, no Fedora 40) seja capaz de interpretá-lo sem problemas:
-
ls "$PWD"
-
' [-]'$'\t''`{title: "Non-Metadata",'$'\t''id: "s4a4ji"}`{.JSON5}.dir'
Octeto
No entanto, tree
e file
em vez disso, parece substituir caracteres não ASCII por um tipo de representação com escape de octeto, que não parece ser utilizável da maneira descrita acima:
-
tree "$PWD"
-
. └── [-]\011`{title: "Non-Metadata",\011id: "s4a4ji"}`{.JSON5}.dir 2 directories, 0 files
UTF-8
E, claro, o PowerShell Core Get-ChildItem
apenas gera a representação UTF-8 completa:
-
Get-ChildItem -LiteralPath "$PWD" | Select-Object -ExpandProperty 'Name'
-
[-] `{title: "Non-Metadata", id: "s4a4ji"}`{.JSON5}.dir
Como é que estes funcionam de forma diferente? Eu esperaria que ls
, tree
, e file
pelo menos operassem de forma idêntica, considerando que - até onde sei - estes são GNU CoreUtils. Além disso, o PowerShell parece demonstrar que nada força fundamentalmente essas ferramentas a escapar de caracteres não-ASCII, então por que estão fazendo isso?
Até onde sei, essa não era a sintaxe POSIX no momento em que sua versão
ls
foi lançada; o$'...'
único passou a fazer parte do POSIX 2024 na semana passada; até então, era apenas um recurso de sintaxe ksh amplamente adotado.Esta é uma representação octal , usando uma sintaxe que imita literais de string C. (Que suportam hexadecimal, mas octal é "tradicional" de certa forma.) Acho que esse é o estilo que o libbsd
strvis()
usa por padrão.Além disso, esses não são caracteres "não-ASCII": as guias fazem parte do ASCII, que cobre todos os valores de bytes de 0 a 127. Valores de bytes acima de 127 (0x7F, 0177) seriam não-ASCII.
São três programas diferentes, simples assim. Não existe uma função comum para "gerar um nome de arquivo" - cada programa aplica o escape que deseja antes de gravá-lo no stdout. (É aqui também que os estilos GNU e BSD diferem.)
Não, eles não são. Apenas
ls
o GNU coreutils – os outros dois nem sequer estão sob a égide do GNU.Os programas também podem fazer coisas sem serem “fundamentalmente forçados” a fazê-lo. Muitos programas escapam deliberadamente de pelo menos os caracteres de controle ASCII C0 para que não sejam (mal) interpretados pelos terminais, por exemplo.
Coreutils'
ls
sempre teve uma seleção de--quoting-style
s com a intenção de tornar os caracteres 'inválidos' mais fáceis de distinguir e (a partir da versão 9.0, se bem me lembro) deliberadamente usa como padrão aspas no estilo Bash para que tais nomes de arquivos possam ser diretamente copie/cole no shell GNU.(Veja também a ferramenta histórica do Unix
dsw
e vários outros truques que as pessoas tiveram que usar para remover um arquivo com um nome de arquivo não digitável.)O PowerShell, por outro lado, nem sequer considera a string um nome de arquivo: é apenas uma propriedade com valor de string de algum objeto. Quando o objeto inteiro (o resultado de Get-ChildItem) é formatado como stdout, ele aplica algum escape, mas as propriedades individuais não sabem nada sobre sua localização.
tree
apenas faz um esforço básico para evitar que caracteres de controle ASCII tenham efeitos indesejáveis em seu terminal, mas não visa especificamente a capacidade de cópia.