Não tenho certeza se esse é o termo correto "Instrução de inserção compacta". É exatamente o que sempre ouvi referir. É o seguinte:
INSERT INTO [tblUsers]
([username], [password])
VALUES ('user1', 'pass1'),
('user2', 'pass2')
De qualquer forma, temos uma tabela com pouco mais de 5 milhões de linhas e estamos prestes a importar alguns dados, MAS a probabilidade é alta de que cerca de 75% dos dados sejam duplicados (compramos dados de várias fontes, mas eles compartilham cerca de 30-40% com cada uma de nossas fontes :/).
Se eu fizer uma restrição exclusiva na coluna, toda a inserção falhará desse ponto em diante (a menos que seja envolvido em uma transação, é claro).
Não sei como fazer isso com eficiência e com código que pode ser reutilizado daqui para frente.
Por que inserir diretamente em tblusers?
Eu sempre uso tabelas de teste. Você pode usar o SSIS, claro, para o mesmo resultado com maior complexidade
Ao usar esse tipo de instrução, você não pode verificar nada na mesma instrução. Exceto se você quiser passar por transações, detectar erros de restrição exclusivos e, neste caso, adicionar seu próprio código para verificar/remover duplicatas.
Uma situação onde é possível fazer a checagem diretamente no extrato seria usar:
Mas isso significa verificar os dados em cada instrução de inserção, talvez não seja uma ideia muito brilhante.
Prefiro adicionar uma coluna de identidade ou identificador exclusivo para usar como chave primária, inserir qualquer coisa que vier e, em seguida, usar um trabalho agendado para remover as duplicatas. Isso se não for um problema ter duplicatas temporárias dentro desta tabela.
Ou outra ideia seria despejar qualquer coisa que entrasse em uma tabela, sem nenhuma restrição, e então criar uma tabela para uso ao vivo onde você copia apenas dados distintos (faça isso com base em um trabalho agendado ou em um gatilho).
É aqui que o SSIS pode ser útil. Você pode criar um pacote uma vez e reutilizá-lo. Se estou assumindo corretamente: seus erros de importação quando um id duplicado é inserido (colisão).
Se você estiver usando o SSIS, poderá redirecionar suas colisões, como, por exemplo, para um arquivo de erro, ou ignorar totalmente essa linha e ir para a próxima. Você pode facilmente procurar tutoriais on-line sobre como criar um pacote SSIS.
Verifique este link para ler mais sobre o redirecionamento de erro no SSIS.