AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / dba / Perguntas / 3210
Accepted
Jeremy Boyd
Jeremy Boyd
Asked: 2011-06-08 05:43:31 +0800 CST2011-06-08 05:43:31 +0800 CST 2011-06-08 05:43:31 +0800 CST

Verificando se há dupes na declaração Compact Insert

  • 772

Não tenho certeza se esse é o termo correto "Instrução de inserção compacta". É exatamente o que sempre ouvi referir. É o seguinte:

INSERT INTO [tblUsers]
       ([username], [password]) 
VALUES ('user1', 'pass1'), 
       ('user2', 'pass2')

De qualquer forma, temos uma tabela com pouco mais de 5 milhões de linhas e estamos prestes a importar alguns dados, MAS a probabilidade é alta de que cerca de 75% dos dados sejam duplicados (compramos dados de várias fontes, mas eles compartilham cerca de 30-40% com cada uma de nossas fontes :/).

Se eu fizer uma restrição exclusiva na coluna, toda a inserção falhará desse ponto em diante (a menos que seja envolvido em uma transação, é claro).

Não sei como fazer isso com eficiência e com código que pode ser reutilizado daqui para frente.

sql-server-2008 insert
  • 3 3 respostas
  • 246 Views

3 respostas

  • Voted
  1. Best Answer
    gbn
    2011-06-08T08:38:36+08:002011-06-08T08:38:36+08:00

    Por que inserir diretamente em tblusers?

    Eu sempre uso tabelas de teste. Você pode usar o SSIS, claro, para o mesmo resultado com maior complexidade

    INSERT INTO [staging].[Users]
           ([username], [password]) 
    VALUES ('user1', 'pass1'), 
           ('user2', 'pass2')
    
    INSERT INTO [tblUsers]
           ([username], [password]) 
    SELECT DISTINCT [username], [password] --edit, added DISTINCT 
    FROM [staging].[Users] SU
    WHERE NOT EXISTS (SELECT * FROM [tblUsers] U WHERE ...)
    
    • 7
  2. Marian
    2011-06-08T06:00:39+08:002011-06-08T06:00:39+08:00

    Ao usar esse tipo de instrução, você não pode verificar nada na mesma instrução. Exceto se você quiser passar por transações, detectar erros de restrição exclusivos e, neste caso, adicionar seu próprio código para verificar/remover duplicatas.

    Uma situação onde é possível fazer a checagem diretamente no extrato seria usar:

    Insert into
    Select ...
    where not exists (...)
    

    Mas isso significa verificar os dados em cada instrução de inserção, talvez não seja uma ideia muito brilhante.

    Prefiro adicionar uma coluna de identidade ou identificador exclusivo para usar como chave primária, inserir qualquer coisa que vier e, em seguida, usar um trabalho agendado para remover as duplicatas. Isso se não for um problema ter duplicatas temporárias dentro desta tabela.

    Ou outra ideia seria despejar qualquer coisa que entrasse em uma tabela, sem nenhuma restrição, e então criar uma tabela para uso ao vivo onde você copia apenas dados distintos (faça isso com base em um trabalho agendado ou em um gatilho).

    • 3
  3. StanleyJohns
    2011-06-08T07:07:40+08:002011-06-08T07:07:40+08:00

    É aqui que o SSIS pode ser útil. Você pode criar um pacote uma vez e reutilizá-lo. Se estou assumindo corretamente: seus erros de importação quando um id duplicado é inserido (colisão).

    Se você estiver usando o SSIS, poderá redirecionar suas colisões, como, por exemplo, para um arquivo de erro, ou ignorar totalmente essa linha e ir para a próxima. Você pode facilmente procurar tutoriais on-line sobre como criar um pacote SSIS.

    Verifique este link para ler mais sobre o redirecionamento de erro no SSIS.

    • 3

relate perguntas

  • Melhores práticas para conectar bancos de dados que estão em diferentes regiões geográficas

  • Quais são as principais causas de deadlocks e podem ser evitadas?

  • Quanto "Padding" coloco em meus índices?

  • Existe um processo do tipo "práticas recomendadas" para os desenvolvedores seguirem para alterações no banco de dados?

  • Downgrade do SQL Server 2008 para 2005

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Como você mysqldump tabela (s) específica (s)?

    • 4 respostas
  • Marko Smith

    Como você mostra o SQL em execução em um banco de dados Oracle?

    • 2 respostas
  • Marko Smith

    Como selecionar a primeira linha de cada grupo?

    • 6 respostas
  • Marko Smith

    Listar os privilégios do banco de dados usando o psql

    • 10 respostas
  • Marko Smith

    Posso ver Consultas Históricas executadas em um banco de dados SQL Server?

    • 6 respostas
  • Marko Smith

    Como uso currval() no PostgreSQL para obter o último id inserido?

    • 10 respostas
  • Marko Smith

    Como executar o psql no Mac OS X?

    • 11 respostas
  • Marko Smith

    Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Como faço para listar todos os bancos de dados e tabelas usando o psql?

    • 7 respostas
  • Marko Smith

    Passando parâmetros de array para um procedimento armazenado

    • 12 respostas
  • Martin Hope
    Manuel Leduc Restrição exclusiva de várias colunas do PostgreSQL e valores NULL 2011-12-28 01:10:21 +0800 CST
  • Martin Hope
    markdorison Como você mysqldump tabela (s) específica (s)? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Stuart Blackler Quando uma chave primária deve ser declarada sem cluster? 2011-11-11 13:31:59 +0800 CST
  • Martin Hope
    pedrosanta Listar os privilégios do banco de dados usando o psql 2011-08-04 11:01:21 +0800 CST
  • Martin Hope
    Jonas Como posso cronometrar consultas SQL usando psql? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas Como faço para listar todos os bancos de dados e tabelas usando o psql? 2011-02-18 00:45:49 +0800 CST
  • Martin Hope
    BrunoLM Guid vs INT - Qual é melhor como chave primária? 2011-01-05 23:46:34 +0800 CST
  • Martin Hope
    bernd_k Quando devo usar uma restrição exclusiva em vez de um índice exclusivo? 2011-01-05 02:32:27 +0800 CST
  • Martin Hope
    Patrick Como posso otimizar um mysqldump de um banco de dados grande? 2011-01-04 13:13:48 +0800 CST

Hot tag

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve