AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / dba / Perguntas / 5025
Accepted
Mark Storey-Smith
Mark Storey-Smith
Asked: 2011-08-26 05:33:48 +0800 CST2011-08-26 05:33:48 +0800 CST 2011-08-26 05:33:48 +0800 CST

Otimizando o desempenho do BCP para dados BLOB

  • 772

Estou planejando a migração ao vivo de um banco de dados de 2 TB para tabelas particionadas. O sistema é basicamente um armazenamento de documentos, sendo a maior parte do espaço alocado para LOBs entre 50kb e 500kb, com uma pequena porcentagem na faixa de 500kb a 1MB. Parte da migração envolverá dados BCPing do banco de dados antigo para o novo.

O BCP é a abordagem preferida, pois a divisão atual/histórica nos dados permite extrair os dados mais antigos em estágios (durante períodos mais silenciosos) antes de uma troca final, minimizando o impacto no sistema ativo. O volume de dados e a disponibilidade de armazenamento impedem uma reconstrução in-situ para um esquema de partição .

Suspeito que haja alguns ganhos de desempenho ao experimentar KILOBYTES_PER_BATCH em vez de ROWS_PER_BATCH, devido ao conteúdo BLOB. É sugerido na documentação do BCP que o SQL pode otimizar as operações com base nesse valor.

O que não consigo encontrar é nenhuma orientação sobre a natureza dessas otimizações ou por onde começar meus testes. Na ausência de sugestões, tentarei corridas curtas nos limites de 4/8/16/32/64 MB para começar.

Provavelmente, alguns ganhos são decorrentes da alteração do tamanho do pacote (parâmetro BCP -a, em vez da configuração do nível do servidor), mas estou inclinado a aumentar isso para o máximo de 65535, a menos que alguém tenha uma abordagem mais estereotipada.

sql-server performance
  • 1 1 respostas
  • 5661 Views

1 respostas

  • Voted
  1. Best Answer
    Marian
    2011-08-27T00:40:13+08:002011-08-27T00:40:13+08:00

    Esta não é uma resposta direta à sua pergunta, mas existem alguns artigos que você se beneficiaria em lê-los (caso não os tenha encontrado primeiro :-)). Eles são sobre o carregamento de muitos dados usando bcp/cópia em massa. Eu li todos eles e não encontrei nada detalhado sobre KILOBYTES_PER_BATCH, todos eles estão usando ROWS_PER_BATCH, mas tenho certeza que você encontrará outras informações úteis.

    • Carregue 1 TB em menos de 1 hora (da equipe SQL CAT) - lista de conselhos daqui (citação):

    • Execute tantos processos de carga quantas CPUs disponíveis. Se você tiver 32 CPUs, execute 32 carregamentos paralelos. Se você tiver 8 CPUs, execute 8 carregamentos paralelos.

    • Se você tiver controle sobre a criação de seus arquivos de entrada, crie-os com um tamanho que seja divisível uniformemente pelo número de encadeamentos de carregamento que deseja executar em paralelo. Certifique-se também de que todos os registros pertençam a uma partição se desejar usar a estratégia de troca de partição.

    • Use BULK insert em vez de BCP se estiver executando o processo na máquina do SQL Server.

    • Use o particionamento de tabela para ganhar outros 8-10%, mas somente se seus arquivos de entrada forem GARANTIDOS para corresponder à sua função de particionamento, o que significa que todos os registros em um arquivo devem estar na mesma partição.

    • Use TABLOCK para evitar bloqueio de linha por vez.

    • Use ROWS PER BATCH = 2500 ou algo próximo disso se estiver importando vários fluxos para uma tabela.

    • As 10 melhores práticas para construir um data warehouse relacional de grande escala (da equipe SQL CAT) - conselhos (citação):

    • Use o modelo de recuperação SIMPLE ou BULK LOGGED durante o carregamento de dados inicial.

    • Crie a tabela de fatos particionada com o índice Clustered.

    • Crie tabelas de preparação não indexadas para cada partição e separe os arquivos de dados de origem para preencher cada partição.

    • Preencha as tabelas de preparação em paralelo (use várias tarefas BULK INSERT, BCP ou SSIS)

    • Crie um índice clusterizado em cada tabela de preparação e, em seguida, crie as restrições CHECK apropriadas.

    • TROQUE todas as partições na tabela particionada.

    • Crie índices não clusterizados na tabela particionada.

    • O Guia de desempenho de carregamento de dados (da equipe SQL CAT)

    • Carregando dados em massa em uma tabela particionada - Artigo de práticas recomendadas do SQL Server (artigo da Technet)

    • Estudo de caso de carregamento em massa incremental do SQL Server 2000 (artigo da Technet)

    • Lições aprendidas e descobertas de um grande POC Fast-Track (da equipe SQL CAT)

    • Dicas de ajuste de desempenho para SQL Server BCP (por Brad McGehee)

    • Impacto no desempenho: encontrando o tamanho de lote ideal (por Linchi Shea)

    e as referências óbvias do MSDN:

    • Gerenciamento de lotes para importação em massa
    • Gerenciando Tamanhos de Lotes de Cópias em Massa
    • Considerações sobre o desempenho da cópia em massa
    • Diretrizes para otimizar a importação em massa
    • Otimizando o desempenho da importação em massa

    Em minha experiência pessoal, consegui fazer um carregamento rápido de dados usando carga paralela e testando com vários tamanhos de lote. Eu acho que apenas testes pessoais serão adequados para você. Espero que você encontre alguns bons conselhos nas referências.

    • 13

relate perguntas

  • Quais são as principais causas de deadlocks e podem ser evitadas?

  • Como determinar se um Índice é necessário ou necessário

  • Onde posso encontrar o log lento do mysql?

  • Como posso otimizar um mysqldump de um banco de dados grande?

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Como você mysqldump tabela (s) específica (s)?

    • 4 respostas
  • Marko Smith

    Como você mostra o SQL em execução em um banco de dados Oracle?

    • 2 respostas
  • Marko Smith

    Como selecionar a primeira linha de cada grupo?

    • 6 respostas
  • Marko Smith

    Listar os privilégios do banco de dados usando o psql

    • 10 respostas
  • Marko Smith

    Posso ver Consultas Históricas executadas em um banco de dados SQL Server?

    • 6 respostas
  • Marko Smith

    Como uso currval() no PostgreSQL para obter o último id inserido?

    • 10 respostas
  • Marko Smith

    Como executar o psql no Mac OS X?

    • 11 respostas
  • Marko Smith

    Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Como faço para listar todos os bancos de dados e tabelas usando o psql?

    • 7 respostas
  • Marko Smith

    Passando parâmetros de array para um procedimento armazenado

    • 12 respostas
  • Martin Hope
    Manuel Leduc Restrição exclusiva de várias colunas do PostgreSQL e valores NULL 2011-12-28 01:10:21 +0800 CST
  • Martin Hope
    markdorison Como você mysqldump tabela (s) específica (s)? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Stuart Blackler Quando uma chave primária deve ser declarada sem cluster? 2011-11-11 13:31:59 +0800 CST
  • Martin Hope
    pedrosanta Listar os privilégios do banco de dados usando o psql 2011-08-04 11:01:21 +0800 CST
  • Martin Hope
    Jonas Como posso cronometrar consultas SQL usando psql? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas Como faço para listar todos os bancos de dados e tabelas usando o psql? 2011-02-18 00:45:49 +0800 CST
  • Martin Hope
    BrunoLM Guid vs INT - Qual é melhor como chave primária? 2011-01-05 23:46:34 +0800 CST
  • Martin Hope
    bernd_k Quando devo usar uma restrição exclusiva em vez de um índice exclusivo? 2011-01-05 02:32:27 +0800 CST
  • Martin Hope
    Patrick Como posso otimizar um mysqldump de um banco de dados grande? 2011-01-04 13:13:48 +0800 CST

Hot tag

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve