AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / coding / Perguntas / 76920505
Accepted
CarLaTeX
CarLaTeX
Asked: 2023-08-17 18:07:11 +0800 CST2023-08-17 18:07:11 +0800 CST 2023-08-17 18:07:11 +0800 CST

Não consigo importar um txt iso-8859-1 em SAS (sessão UTF-8)

  • 772

Eu tenho o arquivo prova.txt:

01                                                                                                                                                                                                                                                       ±00CC00   2023-07-21
50                                               MSTAT»BR_02»BR_07»BR_14                                                                                                                                                                                 ±000066   2023-07-19
01                                                                                                                                                                                                                                                       ±00CC00   2023-07-21

que tem esta codificação ( file -bi prova.txt):

text/plain; charset=iso-8859-1

Estou tentando importá-lo no SAS com este programa:

libname pathdata "/my/dir/dataset";

filename inp "/my/dir/file/prova.txt";
    
data pathdata.prova;
Infile inp /*encoding="wlatin1"*/ lrecl=270 DSD MISSOVER PAD firstObs=1;                                                                                                                                                                                                         
Attrib colore length=$49                                                                                                                                                                                                                            
format=$char49. informat=$char49. ;                                                                                                                                                                               
Attrib orig length=$200                                                                                                                                                                                                                         
format=$char200. informat=$char200. ;                                                                                                                                                                        
Attrib app length=$10                                                                                                                                                                                                                        
format=$char10. informat=$char10. ;                                                                                                                                      
Attrib data_v length=$10                                                                                                                                                                                                                             
format=$char10. informat=$char10.;                                                                                                                                                                                                    

  Input
        @1 colore $char49.
        @50 orig $char200.
        @250 app $char10.
        @260 data_v $char10.
;

run;

Se eu não usar, encoding="wlatin1"recebi caracteres errados no conjunto de dados SAS:

insira a descrição da imagem aqui

Se eu usar, encoding="wlatin1"obtive os caracteres corretos, mas as seguintes variáveis ​​​​são alteradas:

insira a descrição da imagem aqui

A codificação da sessão é ENCODING=UTF-8.

encoding
  • 1 1 respostas
  • 23 Views

1 respostas

  • Voted
  1. Best Answer
    Tom
    2023-08-17T21:34:27+08:002023-08-17T21:34:27+08:00

    Leia-o com ENCODING=ANY e, em seguida, transcodifique as strings você mesmo.

    Certifique-se de definir as variáveis ​​por tempo suficiente para manter a versão UTF-8 do texto, portanto, mais do que o número de bytes lidos do arquivo.

    data test;
      infile inp encoding="any" truncover; 
      length colore $60 orig $250 app $15 data_v $15 ;
      input colore $char49. orig $char200. app $char10. data_v $char10. ;
      array _c _character_;
      do over _c;
        _c=kcvt(_c,'wlatin1','utf-8');
      end;
    run;
    

    Ou leia o arquivo usando a codificação WLATIN1, mas extraia as strings da variável _INFILE_ usando KSUBSTR() em vez da instrução INPUT.

    data test;
      infile inp encoding="wlatin1" truncover; 
      length colore $60 orig $250 app $15 data_v $15 ;
      input ;
      colore =ksubstr(_infile_,1,49);
      orig =ksubstr(_infile_,50,200);
      app =ksubstr(_infile_,250,10);
      data_v = ksubstr(_infile_,260,10);
    run;
    

    insira a descrição da imagem aqui

    O motivo pelo qual você está tendo problemas ao usar ENCODING="WLATIN1" ao ler o arquivo em uma sessão SAS que está usando a codificação UTF-8 é que as linhas são transcodificadas durante a leitura. Portanto, a localização na linha do campo APP e DATA_V se move quando os caracteres não ASCII são transcodificados de byte único para byte múltiplo.

    Se você não quisesse ler por posição de coluna, mas tivesse um tipo delimitado, como um arquivo CSV, não teria problemas.

    • 2

relate perguntas

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    destaque o código em HTML usando <font color="#xxx">

    • 2 respostas
  • Marko Smith

    Por que a resolução de sobrecarga prefere std::nullptr_t a uma classe ao passar {}?

    • 1 respostas
  • Marko Smith

    Você pode usar uma lista de inicialização com chaves como argumento de modelo (padrão)?

    • 2 respostas
  • Marko Smith

    Por que as compreensões de lista criam uma função internamente?

    • 1 respostas
  • Marko Smith

    Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

    • 1 respostas
  • Marko Smith

    java.lang.NoSuchMethodError: 'void org.openqa.selenium.remote.http.ClientConfig.<init>(java.net.URI, java.time.Duration, java.time.Duratio

    • 3 respostas
  • Marko Smith

    Por que 'char -> int' é promoção, mas 'char -> short' é conversão (mas não promoção)?

    • 4 respostas
  • Marko Smith

    Por que o construtor de uma variável global não é chamado em uma biblioteca?

    • 1 respostas
  • Marko Smith

    Comportamento inconsistente de std::common_reference_with em tuplas. Qual é correto?

    • 1 respostas
  • Marko Smith

    Somente operações bit a bit para std::byte em C++ 17?

    • 1 respostas
  • Martin Hope
    fbrereto Por que a resolução de sobrecarga prefere std::nullptr_t a uma classe ao passar {}? 2023-12-21 00:31:04 +0800 CST
  • Martin Hope
    比尔盖子 Você pode usar uma lista de inicialização com chaves como argumento de modelo (padrão)? 2023-12-17 10:02:06 +0800 CST
  • Martin Hope
    Amir reza Riahi Por que as compreensões de lista criam uma função internamente? 2023-11-16 20:53:19 +0800 CST
  • Martin Hope
    Michael A formato fmt %H:%M:%S sem decimais 2023-11-11 01:13:05 +0800 CST
  • Martin Hope
    God I Hate Python std::views::filter do C++20 não filtrando a visualização corretamente 2023-08-27 18:40:35 +0800 CST
  • Martin Hope
    LiDa Cute Por que 'char -> int' é promoção, mas 'char -> short' é conversão (mas não promoção)? 2023-08-24 20:46:59 +0800 CST
  • Martin Hope
    jabaa Por que o construtor de uma variável global não é chamado em uma biblioteca? 2023-08-18 07:15:20 +0800 CST
  • Martin Hope
    Panagiotis Syskakis Comportamento inconsistente de std::common_reference_with em tuplas. Qual é correto? 2023-08-17 21:24:06 +0800 CST
  • Martin Hope
    Alex Guteniev Por que os compiladores perdem a vetorização aqui? 2023-08-17 18:58:07 +0800 CST
  • Martin Hope
    wimalopaan Somente operações bit a bit para std::byte em C++ 17? 2023-08-17 17:13:58 +0800 CST

Hot tag

python javascript c++ c# java typescript sql reactjs html

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve