AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / dba / Perguntas / 66
Accepted
Aleksandr Levchuk
Aleksandr Levchuk
Asked: 2011-01-04 15:31:44 +0800 CST2011-01-04 15:31:44 +0800 CST 2011-01-04 15:31:44 +0800 CST

Sequências Biológicas do UniProt no PostgreSQL

  • 772

Qual é a melhor maneira de armazenar sequências biológicas do UniProt no PostreSQL?

Detalhes dos dados

  • Extraímos 12 milhões de sequências do UniProt - esse número provavelmente dobrará a cada 3-10 meses.
  • O comprimento de uma sequência pode variar de 10 a 50 bilhões de caracteres
  • Menos de 1% das sequências têm mais de 10 mil caracteres
    • Melhoraria o desempenho armazenar as sequências mais longas separadamente?
  • Uma sequência pode ser do alfabeto de Proteína ou DNA
    • O alfabeto de DNA tem 5 caracteres (A, T, C, G ou -).
    • O alfabeto de Proteína terá cerca de 30 caracteres.
    • Não nos importamos em armazenar as sequências dos dois alfabetos diferentes em colunas diferentes ou mesmo em tabelas diferentes. Isso ajudaria?

Detalhes de acesso a dados

Para responder ao comentário de Jeremiah Peschka:

  • Sequências de proteínas e DNA seriam acessadas em momentos diferentes
  • Não precisaria pesquisar dentro da sequência (isso é feito fora do banco de dados)
  • Acessaria linhas únicas por vez ou extrairia conjuntos de linhas por IDs. Não precisaríamos escanear as linhas. Todas as sequências são referenciadas por outras tabelas - várias hierarquias com significado biológico e cronológico existem no banco de dados.

Compatibilidade com versões anteriores

Seria bom poder continuar a aplicar a seguinte função hash (SEGUID - SEquence Globally Unique IDentifier) ​​às sequências.

CREATE OR REPLACE FUNCTION gfam.get_seguid(p_sequence character varying)
  RETURNS character varying AS
$BODY$
declare
  result varchar := null;
  x integer;
begin

  select encode(gfam.digest(p_sequence, 'sha1'), 'base64')
  into   result;

  x := length(result);
  if substring(result from x for 1) = '=' then

     result := substring( result from 1 for x-1 );

  end if;

  return result;

end;
$BODY$
  LANGUAGE 'plpgsql' VOLATILE
  COST 100;
postgresql
  • 2 2 respostas
  • 822 Views

2 respostas

  • Voted
  1. Best Answer
    Brian Ballsun-Stanton
    2011-01-07T17:32:11+08:002011-01-07T17:32:11+08:00

    Explorando as funções do PostBio , parece que eles têm algumas formas de codificação. No entanto, como essas extensões são otimizadas para pesquisa, elas fazem várias referências ao simples uso do texttipo de dados.

    De acordo com a documentação :

    Cadeias longas são compactadas pelo sistema automaticamente, portanto, o requisito físico no disco pode ser menor. Valores muito longos também são armazenados em tabelas de segundo plano para que não interfiram no acesso rápido a valores de coluna mais curtos. Em qualquer caso, a cadeia de caracteres mais longa possível que pode ser armazenada é de cerca de 1 GB.

    Portanto, colocar a tabela em seu próprio espaço de tabela muito grande em hardware dedicado deve ser suficiente para seus objetivos de desempenho. Se 1 GB for muito pequeno para seus dados, o int_interval do ProtBio deve fornecer excelente desempenho:

    Um recurso de sequência corresponde a um trio (id, orient, ii) onde id é um identificador de sequência (possivelmente a chave primária para uma tabela de sequência), orient é um booleano que indica se o recurso está na mesma orientação ou na orientação contrária da sequência, e ii é o int_interval que representa a feição como uma subsequência.

    Codificar a sequência em sha1 parece ser uma maneira muito dolorosa de criar um GUID, considerando os comprimentos potenciais da sequência.

    Se as diferentes sequências não estiverem relacionadas, armazene-as em espaços de tabela diferentes em discos diferentes para desempenho máximo.

    • 7
  2. Chris Travers
    2012-09-04T21:15:27+08:002012-09-04T21:15:27+08:00

    Acho que 50 bilhões de caracteres provavelmente ultrapassarão os limites do que você pode fazer com o PostgreSQL sem dividir seus registros de alguma forma. Eu suspeito que você terá que encontrar alguma maneira de separar as coisas de alguma forma. Não sei que tipo de codificação postbio permite, mas ....

    Cálculos rápidos aqui: 5 caracteres exigem 3 bits para codificar, mas 4 bits facilitarão a pesquisa, pois dois caracteres podem ser codificados por byte. Por outro lado, 3 podem ser suficientes se você estiver procurando por grupos de 10 ou mais letras, pois você pode fazer 10 caracteres por 4 bytes. Otimizado para pesquisas de strings curtas, 50 bilhões de caracteres ocupam aproximadamente 25 GB de armazenamento, muito além do que você pode fazer em uma única coluna. A compactação pode ajudar, mas é necessária uma enorme escala de compactação além da representação binária descompactada mínimapara baixar para 1GB. Otimizado para pesquisas mais longas, obtemos apenas 20 GB. então eu acho que mesmo se você tivesse tipos de informação genética, você teria que separar as coisas. Proteínas com essa complexidade serão ainda mais desafiadoras, pois o melhor que você pode esperar é a notação de 5 bits, o que significa que você tem 6 por 32, o que significa que seu melhor caso para armazenamento é 30 GB por coluna. Portanto, a menos que você consiga, a compactação pode ajudar novamente, mas é necessária uma grande taxa de compactação. Eu vi boas taxas de compactação, mas lembre-se de que você pode estar pressionando.

    Portanto, minha recomendação é estar ciente desse problema e fazer alguns testes com dados reais. Esteja preparado para decompor suas leituras em alguns casos.

    • 1

relate perguntas

  • Qual é a diferença entre a replicação do PostgreSQL 9.0 e o Slony-I?

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Como você mysqldump tabela (s) específica (s)?

    • 4 respostas
  • Marko Smith

    Como você mostra o SQL em execução em um banco de dados Oracle?

    • 2 respostas
  • Marko Smith

    Como selecionar a primeira linha de cada grupo?

    • 6 respostas
  • Marko Smith

    Listar os privilégios do banco de dados usando o psql

    • 10 respostas
  • Marko Smith

    Posso ver Consultas Históricas executadas em um banco de dados SQL Server?

    • 6 respostas
  • Marko Smith

    Como uso currval() no PostgreSQL para obter o último id inserido?

    • 10 respostas
  • Marko Smith

    Como executar o psql no Mac OS X?

    • 11 respostas
  • Marko Smith

    Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Como faço para listar todos os bancos de dados e tabelas usando o psql?

    • 7 respostas
  • Marko Smith

    Passando parâmetros de array para um procedimento armazenado

    • 12 respostas
  • Martin Hope
    Manuel Leduc Restrição exclusiva de várias colunas do PostgreSQL e valores NULL 2011-12-28 01:10:21 +0800 CST
  • Martin Hope
    markdorison Como você mysqldump tabela (s) específica (s)? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Stuart Blackler Quando uma chave primária deve ser declarada sem cluster? 2011-11-11 13:31:59 +0800 CST
  • Martin Hope
    pedrosanta Listar os privilégios do banco de dados usando o psql 2011-08-04 11:01:21 +0800 CST
  • Martin Hope
    Jonas Como posso cronometrar consultas SQL usando psql? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas Como faço para listar todos os bancos de dados e tabelas usando o psql? 2011-02-18 00:45:49 +0800 CST
  • Martin Hope
    BrunoLM Guid vs INT - Qual é melhor como chave primária? 2011-01-05 23:46:34 +0800 CST
  • Martin Hope
    bernd_k Quando devo usar uma restrição exclusiva em vez de um índice exclusivo? 2011-01-05 02:32:27 +0800 CST
  • Martin Hope
    Patrick Como posso otimizar um mysqldump de um banco de dados grande? 2011-01-04 13:13:48 +0800 CST

Hot tag

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve