AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / dba / Perguntas / 4777
Accepted
pedrosanta
pedrosanta
Asked: 2011-08-19 09:38:00 +0800 CST2011-08-19 09:38:00 +0800 CST 2011-08-19 09:38:00 +0800 CST

Como resolver erros de cópia de sequência de bytes inválidos UTF8 em uma restauração, quando o banco de dados de origem é codificado em UTF8?

  • 772

Recebi a tarefa de migrar um banco de dados PostgreSQL 8.2.x para outro servidor. Para fazer isso estou usando o pgAdmin 1.12.2 (no Ubuntu 11.04 a propósito) e usando o Backup and Restore usando o formato custom/compress (.backup) e codificação UTF8.

O banco de dados original está em UTF8, assim:

-- Database: favela

-- DROP DATABASE favela;

CREATE DATABASE favela
  WITH OWNER = favela
       ENCODING = 'UTF8'
       TABLESPACE = favela
       CONNECTION LIMIT = -1;

Estou criando esse banco de dados exatamente assim no servidor de destino. Mas quando restauro o banco de dados do arquivo .backup usando a opção Restaurar, ele me apresenta alguns destes erros:

pg_restore: restoring data for table "arena"
pg_restore: [archiver (db)] Error while PROCESSING TOC:
pg_restore: [archiver (db)] Error from TOC entry 2173; 0 35500 TABLE DATA arena favela
pg_restore: [archiver (db)] COPY failed: ERROR:  invalid byte sequence for encoding "UTF8": 0xe3a709
HINT:  This error can also happen if the byte sequence does not match the encoding expected by the server, which is controlled by "client_encoding".
CONTEXT:  COPY arena, line 62

Quando eu verifico qual registro acionou este erro de fato alguns campos vartext possuem caracteres diacríticos como ç (usado em português, por exemplo, "caça"), e quando eu os removo manualmente do texto nos registros o erro passa para o próximo registro que os possui - pois quando o copy apresenta um erro ele para de inserir dados nesta tabela. E eu não quero substituí-los manualmente um por um para conseguir isso.

Mas é meio estranho porque com UTF8 não deveria haver esse tipo de problema, certo?

Eu não sei como eles chegaram lá em primeiro lugar. Estou apenas migrando o banco de dados e suponho que de alguma forma o banco de dados estava como em LATIN1 e depois foi alterado indevidamente para UTF8.

Existe alguma maneira de verificar se uma tabela/banco de dados possui sequências UTF8 inválidas? Ou alguma maneira de impor/reconverter esses caracteres no UFT8 para não ter problemas ao executar a restauração?

Desde já, obrigado.

postgresql migration
  • 5 5 respostas
  • 169538 Views

5 respostas

  • Voted
  1. Best Answer
    Richard
    2011-08-19T11:09:00+08:002011-08-19T11:09:00+08:00

    Pesquisando na internet, vi que esse é um problema bastante comum. A solução comum é usar o dump de formato de texto simples e alimentá-lo através do iconv para corrigir a codificação.

    Aqui estão mais informações sobre isso.

    • 8
  2. Jack Douglas
    2011-08-19T13:59:46+08:002011-08-19T13:59:46+08:00

    "Eu não sei como eles chegaram lá em primeiro lugar"

    Poderia ter acontecido conforme descrito aqui - embora isso gere um erro no 8.4:

    Se você criar uma tabela com qualquer tipo de texto (ou seja, text, varchar(10), etc.), poderá inserir uma sequência de bytes inválida nesse campo usando escapes octais.

    Por exemplo, se você tiver um banco de dados codificado em UTF8, poderá fazer:

    => CRIAR TABELA foo(t TEXT);

    => INSERIR EM foo VALUES(E'\377');

    Agora, se você COPIAR a tabela, não poderá COPIAR o arquivo resultante de volta. Isso significa que seus backups do pg_dump não poderão ser restaurados. A única maneira de recuperar seus dados é escapar novamente desse valor.

    Há um bom post neste excelente blog sobre os problemas gerais e algumas maneiras de lidar com eles

    • 7
  3. Nijil
    2019-06-05T22:07:05+08:002019-06-05T22:07:05+08:00

    Eu não recomendo executar iconv cegamente no dump de texto simples porque ele pode converter caracteres válidos (por exemplo: caracteres chineses ) para alguns outros caracteres. É melhor encontrar o caractere UTF8 inválido executando o comando abaixo.

    grep -naxv '.*' plain_text_dump.sql
    

    e, em seguida, execute iconv nos dados específicos. Verifique este documento para uma explicação detalhada passo a passo .

    • 3
  4. arulraj.net
    2014-08-14T16:59:53+08:002014-08-14T16:59:53+08:00

    Provavelmente com a codificação padrão usada em seu ambiente Unix/Linux. Para verificar qual codificação é atualmente a padrão, execute o seguinte:

    $ echo $LANG
    en_US
    

    Nesse caso, podemos ver claramente que não é uma codificação UTF-8, aquela na qual o comando de cópia depende.

    Então, para corrigir isso, apenas definimos a variável LANG no exemplo para o seguinte:

    $ export LANG=en_US.UTF-8
    

    Observação: isso só estará disponível para a sessão atual. Adicione-o a ~/.bashrc ou similar para tê-lo disponível na inicialização de qualquer sessão de shell futura.

    Referência

    • 1
  5. Biswajit Barman
    2020-02-07T05:58:12+08:002020-02-07T05:58:12+08:00

    Referenciei o seguinte link que me deu pistas para determinar a codificação de origem e depois convertê-la na codificação UTF-8 desejada. Verifique e altere a codificação do Linux

    $ file -bi cabot.sql
    text/plain; charset=utf-16le
    $ iconv -f utf-16le -t utf-8 -o converted.sql cabot.sql
    $ file -bi converted.sql
    text/plain; charset=utf-8
    
    • 0

relate perguntas

  • Posso ativar o PITR depois que o banco de dados foi usado

  • Práticas recomendadas para executar a replicação atrasada do deslocamento de tempo

  • Os procedimentos armazenados impedem a injeção de SQL?

  • Sequências Biológicas do UniProt no PostgreSQL

  • Qual é a diferença entre a replicação do PostgreSQL 9.0 e o Slony-I?

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Como você mysqldump tabela (s) específica (s)?

    • 4 respostas
  • Marko Smith

    Como você mostra o SQL em execução em um banco de dados Oracle?

    • 2 respostas
  • Marko Smith

    Como selecionar a primeira linha de cada grupo?

    • 6 respostas
  • Marko Smith

    Listar os privilégios do banco de dados usando o psql

    • 10 respostas
  • Marko Smith

    Posso ver Consultas Históricas executadas em um banco de dados SQL Server?

    • 6 respostas
  • Marko Smith

    Como uso currval() no PostgreSQL para obter o último id inserido?

    • 10 respostas
  • Marko Smith

    Como executar o psql no Mac OS X?

    • 11 respostas
  • Marko Smith

    Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Como faço para listar todos os bancos de dados e tabelas usando o psql?

    • 7 respostas
  • Marko Smith

    Passando parâmetros de array para um procedimento armazenado

    • 12 respostas
  • Martin Hope
    Manuel Leduc Restrição exclusiva de várias colunas do PostgreSQL e valores NULL 2011-12-28 01:10:21 +0800 CST
  • Martin Hope
    markdorison Como você mysqldump tabela (s) específica (s)? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Stuart Blackler Quando uma chave primária deve ser declarada sem cluster? 2011-11-11 13:31:59 +0800 CST
  • Martin Hope
    pedrosanta Listar os privilégios do banco de dados usando o psql 2011-08-04 11:01:21 +0800 CST
  • Martin Hope
    Jonas Como posso cronometrar consultas SQL usando psql? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas Como faço para listar todos os bancos de dados e tabelas usando o psql? 2011-02-18 00:45:49 +0800 CST
  • Martin Hope
    BrunoLM Guid vs INT - Qual é melhor como chave primária? 2011-01-05 23:46:34 +0800 CST
  • Martin Hope
    bernd_k Quando devo usar uma restrição exclusiva em vez de um índice exclusivo? 2011-01-05 02:32:27 +0800 CST
  • Martin Hope
    Patrick Como posso otimizar um mysqldump de um banco de dados grande? 2011-01-04 13:13:48 +0800 CST

Hot tag

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve