AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / dba / Perguntas / 337610
Accepted
s.k
s.k
Asked: 2024-03-10 04:30:13 +0800 CST2024-03-10 04:30:13 +0800 CST 2024-03-10 04:30:13 +0800 CST

Obtenha o número absoluto e a porcentagem de valores NULL para cada coluna de cada tabela em um determinado esquema

  • 772

Gostaria de extrair algumas estatísticas básicas sobre como as tabelas são preenchidas em um determinado esquema do PostgreSQL 16, como o número absoluto e a porcentagem de valores nulos para cada coluna em todas as tabelas desse esquema.

Atualmente, estou buscando/computando esses valores usando Python/psycopg2, mas estou me perguntando se posso armazenar algum tipo de função dentro do próprio PostgreSQL que eu possa chamar sempre que quiser obter essas estatísticas.

postgresql
  • 1 1 respostas
  • 70 Views

1 respostas

  • Voted
  1. Best Answer
    Erwin Brandstetter
    2024-03-10T13:55:11+08:002024-03-10T13:55:11+08:00

    ... o número absoluto e a porcentagem de valores nulos para cada coluna em todas as tabelas

    Configuração de teste

    CREATE TABLE test (col1 int, col2 text, col3 date);
    INSERT INTO test VALUES
      (1, 'text', '2024-1-1')
    , (2, 'text', null)
    , (3, null  , null)
    , (4, 'text', null)
    , (5, null  , null)
    ;
    

    Simples, ingênuo, repetitivo e lento

    Basicamente, você deseja este tipo de saída para todas as colunas de qualquer tabela:

    SELECT 'col1' AS column
         , count(*) FILTER (WHERE col1 IS NULL) AS has_null
         , round(count(*) FILTER (WHERE col1 IS NULL) / (count(*) / 100.0)) AS pct_null
    FROM   test t
    
    UNION ALL
    SELECT 'col2' AS column
         , count(*) FILTER (WHERE col2 IS NULL) AS has_null
         , round(count(*) FILTER (WHERE col2 IS NULL) / (count(*) / 100.0)) AS pct_null
    FROM   test t
    
    UNION ALL
    SELECT 'col3' AS column
         , count(*) FILTER (WHERE col3 IS NULL) AS has_null
         , round(count(*) FILTER (WHERE col3 IS NULL) / (count(*) / 100.0)) AS pct_null
    FROM   test t;
    
    coluna has_null pct_null
    col1 0 0
    col2 2 40
    col3 4 80

    Inteligente, mas não dinâmico, ainda

    Além de ser muito mais rápido, adiciona mais dados e protege contra a divisão por zero:

    SELECT c.col AS column
         , c.null_ct AS has_null
         , round(c.null_ct / ct_div) AS pct_null
    FROM  (
       SELECT count(*) AS ct
            , NULLIF(count(*), 0) / 100.0 AS ct_div
            , '{"* (total_row_count)","* (rows_with_any_null)",col1,col2,col3}'::text[] AS cols   
            , ARRAY [count(*)
                   , count(*) FILTER (WHERE NOT (t.*) IS NOT NULL)
                   , count(*) FILTER (WHERE col1 IS NULL)
                   , count(*) FILTER (WHERE col2 IS NULL)
                   , count(*) FILTER (WHERE col3 IS NULL)
                     -- more?
                    ] AS nulls
       FROM   test t
       ) sub, unnest(cols, nulls) AS c(col, null_ct);
    
    nome da coluna has_null pct_null
    * (total_row_count) 5 100
    * (linhas_com_qualquer_nulo) 4 80
    col1 0 0
    col2 2 40
    col3 4 80

    Sobre WHERE NOT (t.*) IS NOT NULL:

    • Restrição NOT NULL sobre um conjunto de colunas

    Relacionado:

    • Otimize a consulta para colunas com valores distintos por ID

    Automação total

    O que você realmente deseja: uma função totalmente automatizada executando uma consulta dinâmica. Com sinos e assobios e desempenho otimizado. Também defende adequadamente contra possíveis injeções de SQL.

    A função leva um ou dois argumentos:

    1. _tbl regclass... Nome da tabela como literal de string (opcionalmente qualificado pelo esquema) ou como tipo OIDregclass
    2. _show_table_stats bool... Mostrar estatísticas adicionais da tabela? Opcional, padrão false.
    CREATE OR REPLACE FUNCTION public.f_null_ratio(_tbl regclass, _show_table_stats bool = false)
      RETURNS TABLE(column_name text, has_null bigint, pct_null numeric)
      LANGUAGE plpgsql AS
    $func$
    DECLARE
       _cols text[];
       _nulls_sql text;
       _sql text;
    BEGIN
       SELECT INTO _cols, _sql
            CASE WHEN _show_table_stats
                   THEN '{* (total_row_count), * (rows_with_any_null)}'::text[] || array_agg(col)
                   ELSE array_agg(col)
               END  -- AS cols
            , format(
    /* dynamic query string */
    $q$SELECT c.col  -- AS column
         , c.null_ct  -- AS has_null
         , round(c.null_ct / ct_div)  -- AS pct_null
    FROM  (
       SELECT count(*) AS ct
            , NULLIF(count(*), 0) / 100.0 AS ct_div
            , $1 AS cols   
            , %1$s AS nulls
       FROM   %2$s t
       ) sub, unnest(cols, nulls) AS c(col, null_ct)$q$
    /* dynamic query string */
                   , CASE WHEN _show_table_stats
                          THEN 'ARRAY [count(*), count(*) FILTER (WHERE NOT (t.*) IS NOT NULL), '
                          ELSE 'ARRAY [' END
                  || string_agg('count(*) FILTER (WHERE ' || a.col || ' IS NULL)', ', ') || ']'  -- %1$s 
                   , _tbl                                                                        -- %2$s 
                    )  -- AS sql
       FROM  (
          SELECT a.attrelid, quote_ident(a.attname) AS col
          FROM   pg_catalog.pg_attribute a
          WHERE  a.attrelid = _tbl
          AND    NOT a.attisdropped  -- no dropped (dead) columns
          AND    a.attnum > 0        -- no system columns
          ORDER  BY a.attnum
          ) a;
    
       -- RAISE NOTICE E'%\n%', _sql, _cols;  -- debug?
       RETURN QUERY EXECUTE _sql
       USING _cols;
    END
    $func$;
    

    Exemplos de chamadas:

    SELECT * FROM f_null_ratio('public.test'::regclass);
    SELECT * FROM f_null_ratio('test');
    SELECT * FROM f_null_ratio('_tbl => public.test', _show_table_stats => true);
    SELECT * FROM f_null_ratio('test', true);
    

    violino

    Agora basta chamar esta função para cada tabela de interesse.
    Você precisa conhecer o PL/pgSQL para lidar com isso corretamente.

    Sobre o uso de %spara o nome da tabela como regclassdigite format():

    • Nome da tabela como parâmetro de função PostgreSQL

    Relacionado:

    • Contar valores NULL por linha
    • 1

relate perguntas

  • Posso ativar o PITR depois que o banco de dados foi usado

  • Práticas recomendadas para executar a replicação atrasada do deslocamento de tempo

  • Os procedimentos armazenados impedem a injeção de SQL?

  • Sequências Biológicas do UniProt no PostgreSQL

  • Qual é a diferença entre a replicação do PostgreSQL 9.0 e o Slony-I?

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

    • 12 respostas
  • Marko Smith

    Como fazer a saída do sqlplus aparecer em uma linha?

    • 3 respostas
  • Marko Smith

    Selecione qual tem data máxima ou data mais recente

    • 3 respostas
  • Marko Smith

    Como faço para listar todos os esquemas no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Listar todas as colunas de uma tabela especificada

    • 5 respostas
  • Marko Smith

    Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

    • 4 respostas
  • Marko Smith

    Como você mysqldump tabela (s) específica (s)?

    • 4 respostas
  • Marko Smith

    Listar os privilégios do banco de dados usando o psql

    • 10 respostas
  • Marko Smith

    Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Como faço para listar todos os bancos de dados e tabelas usando o psql?

    • 7 respostas
  • Martin Hope
    Jin conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane Como faço para listar todos os esquemas no PostgreSQL? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh Por que o log de transações continua crescendo ou fica sem espaço? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland Listar todas as colunas de uma tabela especificada 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney O MySQL pode realizar consultas razoavelmente em bilhões de linhas? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx Como posso monitorar o andamento de uma importação de um arquivo .sql grande? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison Como você mysqldump tabela (s) específica (s)? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas Como posso cronometrar consultas SQL usando psql? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas Como faço para listar todos os bancos de dados e tabelas usando o psql? 2011-02-18 00:45:49 +0800 CST

Hot tag

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve