Recentes Perguntas - Page 179

Geezer

Asked: 2023-09-11 16:26:59 +0800 CST

Obtendo um operador SORT quando tenho um índice

8

Em um banco de dados SQL do Azure (compatibilidade com SQL2019), tenho um processo ETL que preenche tabelas HISTORY em um padrão DeltaTrack.

No Proc, há um UPDATE na tabela HISTORY que o mecanismo de consulta está usando um SORT, mas tenho um índice que deve cobri-lo.

O caso de uso para este UPDATE é para linhas existentes onde adicionamos colunas adicionais à ingestão desde que a linha foi adicionada pela primeira vez à tabela HISTORY.

Este SORT está fazendo com que os Procs em que as atualizações estão em nossas tabelas maiores/mais largas sejam dolorosamente lentos.

Como ajusto o índice ou consulta para remover o SORT na consulta 3 ?

Aqui está o plano de execução atualizado conforme solicitado por JD

Aqui está o DDL.

DROP TABLE IF EXISTS dbo.STAGE;
GO
CREATE TABLE dbo.STAGE
(
    Id varchar(18) NULL,
    CreatedDate varchar(4000) NULL,
    LastModifiedDate varchar(4000) NULL,
    LastReferencedDate varchar(4000) NULL,
    [Name] varchar(4000) NULL,
    OwnerId varchar(4000) NULL,
    SystemTimestamp datetime2(7) NULL
)
GO

DROP TABLE IF EXISTS dbo.HISTORY;
GO
CREATE TABLE dbo.HISTORY
(
    HistoryRecordId int IDENTITY(1,1) NOT NULL,
    [Hash] binary(64) NOT NULL,
    [IsActive]  BIT NOT NULL ,
    ActiveFromDateTime datetime2(7) NOT NULL,
    ActiveToDateTime datetime2(7) NOT NULL,
    Id varchar(18) NOT NULL,
    CreatedDate datetime2(7) NULL,
    LastModifiedDate datetime2(7) NULL,
    LastReferencedDate datetime2(7) NULL,
    [Name] varchar(80) NULL,
    OwnerId varchar(18) NULL,
    SystemTimestamp datetime2(7) NULL
) 
GO
CREATE UNIQUE CLUSTERED INDEX [CL__HISTORY] ON dbo.HISTORY
(
    Id , 
    [ActiveToDateTime] ASC,
    [IsActive] ASC
)
GO
CREATE NONCLUSTERED INDEX [IX__HISTORY_IsActive] ON dbo.HISTORY
(
    [Id] ASC
)
INCLUDE([IsActive],[ActiveToDateTime]) 
GO

DROP TABLE IF EXISTS #updates;
GO


WITH src AS (
  SELECT 
    CONVERT(VARCHAR(18), t.[Id]) AS [Id]
  , CONVERT(DATETIME2, t.[CreatedDate]) AS [CreatedDate]
  , CONVERT(DATETIME2, t.[LastModifiedDate]) AS [LastModifiedDate]
  , CONVERT(DATETIME2, t.[LastReferencedDate]) AS [LastReferencedDate]
  , CONVERT(VARCHAR(80), t.[Name]) AS [Name]
  , CONVERT(VARCHAR(18), t.[OwnerId]) AS [OwnerId]
  , CONVERT(DATETIME2, t.SystemTimestamp) AS SystemTimestamp
  , dgst.[Hash]
  , CONVERT(DATETIME2, SystemTimestamp) AS [ActiveFromDateTime]
  , RN = ROW_NUMBER() OVER ( 
            PARTITION BY 
                t.[Id] 
                ORDER BY CONVERT(DATETIME2, SystemTimestamp) DESC
        ) 
  FROM dbo.STAGE t
    OUTER APPLY (
      SELECT 
        CAST(HASHBYTES('SHA2_256',
          COALESCE(CAST([CreatedDate] AS NVARCHAR(4000)), N'')
            + N'||' + COALESCE(CAST([LastModifiedDate] AS NVARCHAR(4000)), N'')
            + N'||' + COALESCE(CAST([LastReferencedDate] AS NVARCHAR(4000)), N'')
            + N'||' + COALESCE(CAST([Name] AS NVARCHAR(4000)), N'')
            + N'||' + COALESCE(CAST([OwnerId] AS NVARCHAR(4000)), N'')
            + N'||' + COALESCE(CAST(SystemTimestamp AS NVARCHAR(4000)), N'')
        ) AS BINARY(64)) AS [Hash]
      ) dgst
), tgt AS (
  SELECT *
  FROM dbo.HISTORY t
  WHERE t.[ActiveToDateTime] > GETUTCDATE()
  AND 1 = 1  
)
SELECT 
  tgt.HistoryRecordId
, src.*
INTO #updates
FROM src
  LEFT JOIN tgt 
    ON tgt.[Id] = src.[Id] WHERE src.RN = 1;  
GO

--Create index on temp table (#updates) 
CREATE NONCLUSTERED INDEX NCCI_#updates__Kimble_HISTORY_ForecastStatus 
    ON #updates ( [Id] , ActiveFromDateTime, [Hash] );
GO  


    UPDATE  tgt 
    SET
      tgt.[Hash]        = src.[Hash] 
    , tgt.IsActive      = 1
    , tgt.[CreatedDate] = src.[CreatedDate]
    , tgt.[LastModifiedDate]    = src.[LastModifiedDate]
    , tgt.[LastReferencedDate]  = src.[LastReferencedDate]
    , tgt.[Name]            = src.[Name]
    , tgt.[OwnerId]         = src.[OwnerId]
    , tgt.SystemTimestamp   = src.SystemTimestamp
    FROM dbo.HISTORY tgt
      INNER JOIN #updates src   
            ON tgt.[Id] = src.[Id]
            AND src.[ActiveFromDateTime] = tgt.[ActiveFromDateTime] 
            AND tgt.[Hash]  <> src.[Hash] ; 
GO

moe_

Asked: 2023-09-11 00:36:20 +0800 CST

otimizar a operação de inserção no MySQL (InnoDB)

6

Eu tenho esta tabela:

create table tab3(
id                              int not null auto_increment,
phrase                          text,
link_1                          int,
link_2                          int,
primary key (id),
foreign key (link_1) references tab1 (id),
foreign key (link_2) references tab2 (id));

Estou inserindo cerca de 400 mil linhas nesta tabela com Python. esta é a instrução de inserção:

INSERT INTO tab3(phrase, link_1, link_2)
    VALUES(
        %s,
        (select id from tab1 where tab1.col1 = %s),
        (select id from tab2 where tab2.col2 = %s));

Eu tenho um índice nas tabelas tab1.col1 e tab2.col2. mas a inserção está demorando em torno de 5 minutos/1000 linhas

Eu tentei muitas técnicas diferentes dos documentos oficiais do MySQL, como:

usando cursor.execute(stmt,param)
usando cursor.executemany(stmt, param s )
vários processos (bilhar https://pypi.org/project/billiard/ )
bloqueando o commit até que todos os dados sejam inseridos e então confirme as alterações
encapsulando o insert stmt dentro de uma transação (com START TRANSACTION )

Mas nenhuma das opções acima deu uma boa melhoria.

a1ex07

Asked: 2023-09-09 06:09:15 +0800 CST

Qual é o nível aceitável de fragmentação do índice BTree no Postgres?

6

Gostaria de saber em que ponto faz sentido reconstruir o índice BTree em tabelas relativamente grandes (algumas centenas de GB).

Para mim, qualquer coisa acima de 30% ou 40% parece ser um bom candidato, mas vi alguns dizerem que até 70% não é tão ruim para o Postgres. Estou obtendo fragmentação da pgstattuple.pgstatindexfunção, se for importante.

Zak

Asked: 2023-09-09 04:31:18 +0800 CST

Sistema de indexação vs conexão DMBS bruta

4

Eu criei um novo conjunto de dados que possui mais de 11.000.000 de linhas com 4 tabelas dinâmicas no MySQL. As tabelas não são tão profundas, apenas 6 a 12 colunas por.

Minha pergunta é que configurei o Lucene Apache SOLR para indexar os dados e funciona muito bem para pesquisar.

Não notei um tempo de carregamento dramático nas pesquisas. Se eu executar um comando SQL bruto, a diferença entre os dois será insignificante. Em que ponto é mais benéfico usar um mecanismo de indexação do que criar scripts de uma consulta bruta?

Now granted I have the ability to set "weight" and all that via SOLR .. But my impression was that I would have dramatically reduced overhead on the server ... Is it just that my dataset isn't large enough / complicated enough to illicit these finding? Other than the obvious advantages being weight, rank and sort/filter -- What is the overhead advantage of using a indexing system such as SOLR?

Sam Johnson

Asked: 2023-09-09 02:02:47 +0800 CST

Como escrevo uma instrução Dax que retorna as contagens atuais sempre que filtro um TEam

6

Abaixo está minha tabela de exemplo e gostaria de escrever uma instrução Dax que retorne a contagem atual sempre que eu filtrar pela Equipe A ou B. Idealmente, a contagem atual por equipe estaria em um cartão no Power BI.

equipe	ano mês	ativo_cnt
a	2023-06	10
a	2023-07	15
a	2023-08	30
b	2023-06	15
b	2023-07	25
b	2023-08	30

Abaixo estava minha tentativa, mas retornou uma resposta em branco:

CurrentCountPerTeam = 
SUMX(
FILTER(
    'Query1',
    'Query1'[yearmonth] = YEAR(TODAY()) * 100 + MONTH(TODAY())
),
'Query1'[active_cnt]
)

Ade

Asked: 2023-09-09 01:03:55 +0800 CST

Ignore linhas duplicadas em uma junção – e pegue apenas uma delas

7

No MySQL tenho tabelas, simplificadas da seguinte forma:

companies (id, name, rank, trade_sector_id)
orders (id, company_id, paid, subtotal)
trade_sectors (id, label)
companies_notes (id, company_id, notes)

Quero uma única linha para cada empresa contendo:

Nome da companhia
Número de encomendas
Total de todos os subtotais
Notas da empresa

Para simplificar aqui estou selecionando apenas uma empresa, com id=14401. Possui 68 pedidos:

SELECT 
  companies.id AS company_id, 
  companies.account_name, 
  COUNT(orders.id) AS numSales,
  SUM(orders.`subtotal`) AS subtotal,   
  MAX(trade_sectors.label) AS trade_sector,
  MAX(companies_notes.`notes`) AS notes

FROM companies
  LEFT JOIN `orders` ON (companies.id = orders.`company_id` AND orders.`paid` = 1)
  LEFT JOIN `trade_sectors` ON (companies.trade_sector_id = trade_sectors.`id`)
  LEFT JOIN `companies_notes` ON (`companies_notes`.`company_id` = companies.id)

  WHERE companies.id = '14401'
  GROUP BY companies.id
  ORDER BY companies.rank DESC;

O problema

Existem 68 pedidos para esta empresa, mas estou obtendo numSales como 136 (ou seja, 2x o número) e também o subtotal é 2x maior do que deveria ser.

Mas se eu remover a junção do NOTES, está correto:

SELECT 
  companies.id AS company_id, 
  companies.account_name, 
  COUNT(orders.id) AS numSales,
  SUM(orders.`subtotal`) AS subtotal,   
  MAX(trade_sectors.label) AS trade_sector

FROM companies
  LEFT JOIN `orders` ON (companies.id = orders.`company_id` AND orders.`paid` = 1)
  LEFT JOIN `trade_sectors` ON (companies.trade_sector_id = trade_sectors.`id`)

  WHERE companies.id = '14401'
  GROUP BY companies.id
  ORDER BY companies.rank DESC;

Parece que a junção de notas está me dando 2 linhas por pedido. Sim, EXISTEM duas linhas de notas para esta empresa (deve haver apenas 1), mas isso não é aplicado tecnicamente. Eu pensei que usando a função de agregação MAX no companies_notes. notesapenas um seria considerado. Na verdade, a cláusula Group BY exige que as colunas sejam agregadas.

Como posso evitar que a junção crie registros duplicados que afetam os valores SUM()e MAX()?

lpscott

Asked: 2023-09-08 22:15:03 +0800 CST

Mesclando dados da sessão wifi se o tempo entre eles for inferior a 15 minutos

6

Estou tentando processar logs de rede e ingressar em sessões se o tempo entre eles for inferior a 15 minutos. Os campos relevantes são hora de início, hora de término, endereço MAC e ponto de acesso wi-fi.

Estou trabalhando no Greenplum 6.22/Postgresql 9.4.26:

pdap=# SELECT version();

versão
PostgreSQL 9.4.26 (banco de dados Greenplum 6.22.2)

violino db

Logicamente, o que eu quero fazer é "Se o horário de início da próxima linha for inferior a 15 minutos após o horário de término desta linha, mescle as duas linhas em uma linha com o horário de início anterior e o horário de término posterior".

Aqui está um exemplo de tabela com alguns dados:

CREATE TABLE network_test
( start_ts TIMESTAMPTZ,
  end_ts TIMESTAMPTZ,
  mac_addr MACADDR,
  access_point VARCHAR
);

INSERT INTO network_test
VALUES
('2023-08-14 13:21:10.289'::timestamptz, '2023-08-14 13:31:20.855'::timestamptz, '00:00:00:00:00:01'::macaddr, 'access_point_01'),
('2023-08-14 13:58:10.638'::timestamptz, '2023-08-14 13:58:22.668'::timestamptz, '00:00:00:00:00:01'::macaddr, 'access_point_01'),
('2023-08-14 13:58:22.727'::timestamptz, '2023-08-14 13:58:38.966'::timestamptz, '00:00:00:00:00:01'::macaddr, 'access_point_01'),
('2023-08-14 13:28:28.190'::timestamptz, '2023-08-14 13:28:28.190'::timestamptz, '00:00:00:00:00:02'::macaddr, 'access_point_02'),
('2023-08-14 13:28:44.167'::timestamptz, '2023-08-14 13:28:44.288'::timestamptz, '00:00:00:00:00:02'::macaddr, 'access_point_02'),
('2023-08-14 13:45:40.281'::timestamptz, '2023-08-14 13:46:02.726'::timestamptz, '00:00:00:00:00:02'::macaddr, 'access_point_03'),
('2023-08-14 13:46:02.964'::timestamptz, '2023-08-14 13:46:10.783'::timestamptz, '00:00:00:00:00:02'::macaddr, 'access_point_03'),
('2023-08-14 13:46:11.026'::timestamptz, '2023-08-14 13:46:18.803'::timestamptz, '00:00:00:00:00:02'::macaddr, 'access_point_03'),
('2023-08-14 13:46:19.037'::timestamptz, '2023-08-14 13:46:26.798'::timestamptz, '00:00:00:00:00:02'::macaddr, 'access_point_03'),
('2023-08-14 13:46:27.036'::timestamptz, '2023-08-14 13:46:34.815'::timestamptz, '00:00:00:00:00:02'::macaddr, 'access_point_03'),
('2023-08-14 13:46:35.057'::timestamptz, '2023-08-14 13:46:46.980'::timestamptz, '00:00:00:00:00:02'::macaddr, 'access_point_03'),
('2023-08-14 13:46:47.213'::timestamptz, '2023-08-14 13:46:54.946'::timestamptz, '00:00:00:00:00:02'::macaddr, 'access_point_03'),
('2023-08-14 13:46:55.189'::timestamptz, '2023-08-14 13:47:17.040'::timestamptz, '00:00:00:00:00:02'::macaddr, 'access_point_03'),
('2023-08-14 13:47:17.297'::timestamptz, '2023-08-14 13:47:25.106'::timestamptz, '00:00:00:00:00:02'::macaddr, 'access_point_03'),
('2023-08-14 13:55:25.381'::timestamptz, '2023-08-14 13:58:33.059'::timestamptz, '00:00:00:00:00:02'::macaddr, 'access_point_03');

SELECT *
FROM network_test
ORDER BY mac_addr, access_point, start_ts

start_ts	fim_ts	mac_addr	ponto de acesso
14/08/2023 13:21:10.289+00	14/08/2023 13:31:20.855+00	00:00:00:00:00:01	access_point_01
14/08/2023 13:58:10.638+00	14/08/2023 13:58:22.668+00	00:00:00:00:00:01	access_point_01
14/08/2023 13:58:22.727+00	14/08/2023 13:58:38.966+00	00:00:00:00:00:01	access_point_01
14/08/2023 13:28:28,19+00	14/08/2023 13:28:28,19+00	00:00:00:00:00:02	access_point_02
14/08/2023 13:28:44.167+00	14/08/2023 13:28:44.288+00	00:00:00:00:00:02	access_point_02
14/08/2023 13:45:40.281+00	14/08/2023 13:46:02.726+00	00:00:00:00:00:02	access_point_03
14/08/2023 13:46:02.964+00	14/08/2023 13:46:10.783+00	00:00:00:00:00:02	access_point_03
14/08/2023 13:46:11.026+00	2023-08-14 13:46:18.803+00	00:00:00:00:00:02	access_point_03
14/08/2023 13:46:19.037+00	14/08/2023 13:46:26.798+00	00:00:00:00:00:02	access_point_03
14/08/2023 13:46:27.036+00	14/08/2023 13:46:34.815+00	00:00:00:00:00:02	access_point_03
14/08/2023 13:46:35.057+00	14/08/2023 13:46:46,98+00	00:00:00:00:00:02	access_point_03
14/08/2023 13:46:47.213+00	14/08/2023 13:46:54.946+00	00:00:00:00:00:02	access_point_03
14/08/2023 13:46:55.189+00	14/08/2023 13:47:17.04+00	00:00:00:00:00:02	access_point_03
14/08/2023 13:47:17.297+00	14/08/2023 13:47:25.106+00	00:00:00:00:00:02	access_point_03
14/08/2023 13:55:25.381+00	14/08/2023 13:58:33.059+00	00:00:00:00:00:02	access_point_03

Aqui está o que eu gostaria que fosse o resultado:

start_ts	fim_ts	mac_addr	ponto de acesso
14/08/2023 13:21:10.289+00	14/08/2023 13:31:20.855+00	00:00:00:00:00:01	access_point_01
14/08/2023 13:58:10.638+00	14/08/2023 13:58:38.966+00	00:00:00:00:00:01	access_point_01
14/08/2023 13:28:28,19+00	14/08/2023 13:28:44.288+00	00:00:00:00:00:02	access_point_02
14/08/2023 13:45:40.281+00	14/08/2023 13:58:33.059+00	00:00:00:00:00:02	access_point_03

A primeira sessão permanece como está. A 2ª e a 3ª sessões são mescladas em uma porque têm o mesmo endereço MAC e ponto de acesso e há menos de 15 minutos entre elas. O mesmo acontece para a 4ª e 5ª sessões, bem como da 6ª à 15ª.

Posso chegar perto usando funções de janela:

SELECT DISTINCT
       MIN(start_ts) OVER (PARTITION BY mac_addr, access_point, ROUND(EXTRACT(EPOCH FROM start_ts)/900)) AS start_ts,
       MAX(end_ts) OVER (PARTITION BY mac_addr, access_point, ROUND(EXTRACT(EPOCH FROM end_ts)/900)) AS end_ts,
       mac_addr,
       access_point
FROM network_test
ORDER BY mac_addr, access_point, start_ts

start_ts	fim_ts	mac_addr	ponto de acesso
14/08/2023 13:21:10.289+00	14/08/2023 13:31:20.855+00	00:00:00:00:00:01	access_point_01
14/08/2023 13:58:10.638+00	14/08/2023 13:58:38.966+00	00:00:00:00:00:01	access_point_01
14/08/2023 13:28:28,19+00	14/08/2023 13:28:44.288+00	00:00:00:00:00:02	access_point_02
14/08/2023 13:45:40.281+00	14/08/2023 13:47:25.106+00	00:00:00:00:00:02	access_point_03
14/08/2023 13:55:25.381+00	14/08/2023 13:58:33.059+00	00:00:00:00:00:02	access_point_03

Mas observe que os dois últimos pontos de dados terminam em intervalos separados de 15 minutos, embora tenham apenas 8 minutos de intervalo.

Alguém sabe se existe uma maneira de fazer isso em SQL, ou terei que escrever uma função PL/pgSQL para percorrer os dados linha por linha e fazer a comparação?

bk_32

Asked: 2023-09-08 22:04:02 +0800 CST

Erro ao criar trigger para inserir valores

5

Sou novo em bancos de dados e sei que esta é uma pergunta simples, mas não consigo encontrar uma resposta em lugar nenhum, por isso agradeço a ajuda.

Tenho 2 tabelas, cada uma com a mesma estrutura.

Table1
CaseNum Number(9,0)
CaseStat Number(5,0)
OpenDate Date

Table2
CaseNum Number(9,0)
CaseStat Number(5,0)
OpenDate Date

Então estou tentando criar esse gatilho, que irá inserir uma nova linha na tabela2 toda vez que a tabela1 for inserida ou atualizada. O objetivo é fazer da Tabela2 um histórico de alterações na tabela1:

CREATE OR REPLACE TRIGGER TABLE1_HIST
AFTER INSERT OR UPDATE ON TABLE1
FOR EACH ROW

BEGIN
   INSERT INTO TABLE2
   VALUES (CaseNum, CaseStat, sysdate);
END;

Quando tento criá-lo, recebo os seguintes erros:

Error(2,3): PL/SQL: SQL Statement ignored
Error(3,20): PL/SQL: ORA-00984: column not allowed here

Mas eu verifiquei e verifiquei novamente os tipos de coluna, e eles parecem ser todos iguais.

Acontece que quando substituo VALUES (CaseNum, CaseStat, sysdate); com números codificados, permite-me criar o gatilho!

Isso funciona:

CREATE OR REPLACE TRIGGER TABLE1_HIST
AFTER INSERT OR UPDATE ON TABLE1
FOR EACH ROW

BEGIN
   INSERT INTO TABLE2
   VALUES (123456789, 12345, sysdate);
END;

No entanto, isso obviamente não é útil.

Qualquer sugestão será apreciada.

Lexen

Asked: 2023-09-08 21:20:03 +0800 CST

PostgreSQL: Problema ao declarar variáveis na consulta

4

Estou tentando declarar uma variável para uso posterior em uma consulta PostgreSQL. Já fiz isso muitas vezes no TSQL, mas não tinha certeza sobre a sintaxe.

As coisas que vi online apontam para algo assim:

declare timestamp_utc timestamp := current_timestamp;
select start_date;

quando executo a consulta acima, recebo uma mensagem de erro:

Tenho certeza de que isso é simples, mas simplesmente não consigo encontrar a resposta online. Qualquer ajuda que você possa fornecer será muito apreciada.

RED_Tom

Asked: 2023-09-08 19:59:47 +0800 CST

Aumento repentino no BinLogDiskUsage

6

Dois dias atrás, nossa instância MySQL RDS viu um aumento repentino em BinLogDiskUsage, CPUUtilization, NetworkReceiveThroughput e NetworkTransmitThroughput.

O resultado foi um banco de dados extremamente lento para responder, mas que não deixava de responder. As solicitações às APIs conectadas ao banco de dados demoravam 10 vezes mais para responder do que o normal.

O WAF não indicou um aumento no tráfego (embora tenha coincidido com o que normalmente é o período mais movimentado do dia).

Em três horas, a situação se resolveu e os tempos de resposta voltaram ao normal.

Minhas perguntas são:

O que faria com que BinLogDiskUsage aumentasse repentinamente?
Por que isso faria com que o banco de dados ficasse tão lento, já que a CPUUtilization atingiu apenas cerca de 20%? (Estou confundindo causa e efeito?)

Se for útil, max_binlog_sizeé134217728

Obtendo um operador SORT quando tenho um índice

otimizar a operação de inserção no MySQL (InnoDB)

Qual é o nível aceitável de fragmentação do índice BTree no Postgres?

Sistema de indexação vs conexão DMBS bruta

Como escrevo uma instrução Dax que retorna as contagens atuais sempre que filtro um TEam

Ignore linhas duplicadas em uma junção – e pegue apenas uma delas

Mesclando dados da sessão wifi se o tempo entre eles for inferior a 15 minutos

Erro ao criar trigger para inserir valores

PostgreSQL: Problema ao declarar variáveis na consulta

Aumento repentino no BinLogDiskUsage

conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

Como fazer a saída do sqlplus aparecer em uma linha?

Selecione qual tem data máxima ou data mais recente

Como faço para listar todos os esquemas no PostgreSQL?

Listar todas as colunas de uma tabela especificada

Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

Como você mysqldump tabela (s) específica (s)?

Listar os privilégios do banco de dados usando o psql

Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

Como faço para listar todos os bancos de dados e tabelas usando o psql?

All perguntas(dba)