AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / dba / Perguntas / 7160
Accepted
Dolan Antenucci
Dolan Antenucci
Asked: 2011-10-25 09:11:28 +0800 CST2011-10-25 09:11:28 +0800 CST 2011-10-25 09:11:28 +0800 CST

Como armazenar melhor os dados do Google Web Ngram?

  • 772

Esta é uma continuação de Como armazenar melhor os ngrams do Google em um banco de dados? , que aborda como armazenar os dados do Google Ngram Book .

Estou procurando armazenar os dados da Web do Google NGram , que têm um formato ligeiramente diferente (sem informações de página/ano; apenas conta):

...
ceramics collectables collectibles 55
ceramics collectables fine 130
...
serve as the incoming 92
serve as the incubator 99

Como essa é uma estrutura de dados muito simples, qual é um bom método para armazenar esses dados que são razoavelmente rápidos para importar e rápidos para recuperar a contagem por um ngram específico?

Eu gosto da ideia de um banco de dados relacional, simplesmente por causa dos métodos comuns para acessá-lo, mas acho que a maioria desses outros bancos de dados não relacionais (por exemplo, tokyo hashtable) também têm métodos bastante comuns.

Atualizar

Exemplos de consultas:

# primary query
> SELECT ngram_count FROM ngram_table WHERE ngram = 'ceramics collectables fine';

ceramics collectables collectibles 55
ceramics collectables fine 130

# secondary query (not needed, but nice if have option)
SELECT ngram_count FROM ngram_table WHERE ngram LIKE '%collectables%';

ceramics collectables collectibles 55
mysql partitioning
  • 1 1 respostas
  • 1408 Views

1 respostas

  • Voted
  1. Best Answer
    RolandoMySQLDBA
    2011-10-25T09:59:39+08:002011-10-25T09:59:39+08:00

    Eu tenho o script que você precisa aqui

    USE test
    DROP TABLE IF EXISTS ngram_key;
    DROP TABLE IF EXISTS ngram_rec;
    DROP TABLE IF EXISTS ngram_blk;
    CREATE TABLE ngram_key
    (
        NGRAM_ID BIGINT UNSIGNED NOT NULL AUTO_INCREMENT,
        NGRAM VARCHAR(64) NOT NULL,
        PRIMARY KEY (NGRAM),
        KEY (NGRAM_ID)
    ) ENGINE=MyISAM ROW_FORMAT=FIXED PARTITION BY KEY(NGRAM) PARTITIONS 256;
    CREATE TABLE ngram_rec
    (
        NGRAM_ID BIGINT UNSIGNED NOT NULL,
        NGRAM_COUNT SMALLINT NOT NULL,
        PRIMARY KEY (NGRAM_ID)
    ) ENGINE=MyISAM ROW_FORMAT=FIXED;
    CREATE TABLE ngram_blk
    (
        NGRAM VARCHAR(64) NOT NULL,
        NGRAM_COUNT SMALLINT NOT NULL
    ) ENGINE=BLACKHOLE;
    DELIMITER $$
    CREATE TRIGGER populate_ngram AFTER INSERT ON ngram_blk FOR EACH ROW
    BEGIN
        DECLARE NEW_ID BIGINT;
        INSERT IGNORE INTO ngram_key (NGRAM) VALUES (NEW.NGRAM);
        SELECT NGRAM_ID INTO NEW_ID FROM ngram_key WHERE NGRAM=NEW.NGRAM;
        INSERT IGNORE INTO ngram_rec VALUES (NEW_ID,NEW.NGRAM_COUNT);
    END; $$
    DELIMITER ;
    INSERT INTO ngram_blk VALUES
    ('rolando',85),
    ('pamela',86),
    ('dominique',87),
    ('diamond',88),
    ('rolando edwards',185),
    ('pamela edwards',186),
    ('dominique edwards',187),
    ('diamond edwards',188),
    ('rolando angel edwards',285),
    ('pamela claricia edwards',286),
    ('dominique sharlisee edwards',287),
    ('diamond ashley edwards',288);
    SELECT * FROM ngram_key;
    SELECT * FROM ngram_rec;
    SELECT A.ngram NGram,B.* FROM 
    ngram_key A,ngram_rec B
    WHERE A.ngram IN ('rolando angel edwards','rolando edwards','rolando')
    AND A.ngram_id=B.ngram_id;
    

    aqui está o que os dados de amostra geram:

    mysql> USE test
    Database changed
    mysql> DROP TABLE IF EXISTS ngram_key;
    Query OK, 0 rows affected, 1 warning (0.00 sec)
    
    mysql> DROP TABLE IF EXISTS ngram_rec;
    Query OK, 0 rows affected, 1 warning (0.00 sec)
    
    mysql> DROP TABLE IF EXISTS ngram_blk;
    Query OK, 0 rows affected, 1 warning (0.00 sec)
    
    mysql> CREATE TABLE ngram_key
        -> (
        ->     NGRAM_ID BIGINT UNSIGNED NOT NULL AUTO_INCREMENT,
        ->     NGRAM VARCHAR(64) NOT NULL,
        ->     PRIMARY KEY (NGRAM),
        ->     KEY (NGRAM_ID)
        -> ) ENGINE=MyISAM ROW_FORMAT=FIXED PARTITION BY KEY(NGRAM) PARTITIONS 256;
    Query OK, 0 rows affected (0.53 sec)
    
    mysql> CREATE TABLE ngram_rec
        -> (
        ->     NGRAM_ID BIGINT UNSIGNED NOT NULL,
        ->     NGRAM_COUNT SMALLINT NOT NULL,
        ->     PRIMARY KEY (NGRAM_ID)
        -> ) ENGINE=MyISAM ROW_FORMAT=FIXED;
    Query OK, 0 rows affected (0.04 sec)
    
    mysql> CREATE TABLE ngram_blk
        -> (
        ->     NGRAM VARCHAR(64) NOT NULL,
        ->     NGRAM_COUNT SMALLINT NOT NULL
        -> ) ENGINE=BLACKHOLE;
    Query OK, 0 rows affected (0.05 sec)
    
    mysql> DELIMITER $$
    mysql> CREATE TRIGGER populate_ngram AFTER INSERT ON ngram_blk FOR EACH ROW
        -> BEGIN
        ->     DECLARE NEW_ID BIGINT;
        ->     INSERT IGNORE INTO ngram_key (NGRAM) VALUES (NEW.NGRAM);
        ->     SELECT NGRAM_ID INTO NEW_ID FROM ngram_key WHERE NGRAM=NEW.NGRAM;
        ->     INSERT IGNORE INTO ngram_rec VALUES (NEW_ID,NEW.NGRAM_COUNT);
        -> END; $$
    Query OK, 0 rows affected (0.08 sec)
    
    mysql> DELIMITER ;
    mysql> INSERT INTO ngram_blk VALUES
        -> ('rolando',85),
        -> ('pamela',86),
        -> ('dominique',87),
        -> ('diamond',88),
        -> ('rolando edwards',185),
        -> ('pamela edwards',186),
        -> ('dominique edwards',187),
        -> ('diamond edwards',188),
        -> ('rolando angel edwards',285),
        -> ('pamela claricia edwards',286),
        -> ('dominique sharlisee edwards',287),
        -> ('diamond ashley edwards',288);
    Query OK, 12 rows affected (0.10 sec)
    Records: 12  Duplicates: 0  Warnings: 0
    
    mysql> SELECT * FROM ngram_key;
    +----------+-----------------------------+
    | NGRAM_ID | NGRAM                       |
    +----------+-----------------------------+
    |       11 | dominique sharlisee edwards |
    |        1 | rolando                     |
    |        9 | rolando angel edwards       |
    |        4 | diamond                     |
    |        8 | diamond edwards             |
    |        2 | pamela                      |
    |        3 | dominique                   |
    |        6 | pamela edwards              |
    |        5 | rolando edwards             |
    |       12 | diamond ashley edwards      |
    |        7 | dominique edwards           |
    |       10 | pamela claricia edwards     |
    +----------+-----------------------------+
    12 rows in set (0.00 sec)
    
    mysql> SELECT * FROM ngram_rec;
    +----------+-------------+
    | NGRAM_ID | NGRAM_COUNT |
    +----------+-------------+
    |        1 |          85 |
    |        2 |          86 |
    |        3 |          87 |
    |        4 |          88 |
    |        5 |         185 |
    |        6 |         186 |
    |        7 |         187 |
    |        8 |         188 |
    |        9 |         285 |
    |       10 |         286 |
    |       11 |         287 |
    |       12 |         288 |
    +----------+-------------+
    12 rows in set (0.00 sec)
    
    mysql> SELECT A.ngram NGram,B.* FROM
        -> ngram_key A,ngram_rec B
        -> WHERE A.ngram IN ('rolando angel edwards','rolando edwards','rolando')
        -> AND A.ngram_id=B.ngram_id;
    +-----------------------+----------+-------------+
    | NGram                 | NGRAM_ID | NGRAM_COUNT |
    +-----------------------+----------+-------------+
    | rolando               |        1 |          85 |
    | rolando angel edwards |        9 |         285 |
    | rolando edwards       |        5 |         185 |
    +-----------------------+----------+-------------+
    3 rows in set (0.00 sec)
    

    De uma chance !!!

    • 2

relate perguntas

  • Existem ferramentas de benchmarking do MySQL? [fechado]

  • Onde posso encontrar o log lento do mysql?

  • Como posso otimizar um mysqldump de um banco de dados grande?

  • Quando é o momento certo para usar o MariaDB em vez do MySQL e por quê?

  • Como um grupo pode rastrear alterações no esquema do banco de dados?

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Como você mysqldump tabela (s) específica (s)?

    • 4 respostas
  • Marko Smith

    Como você mostra o SQL em execução em um banco de dados Oracle?

    • 2 respostas
  • Marko Smith

    Como selecionar a primeira linha de cada grupo?

    • 6 respostas
  • Marko Smith

    Listar os privilégios do banco de dados usando o psql

    • 10 respostas
  • Marko Smith

    Posso ver Consultas Históricas executadas em um banco de dados SQL Server?

    • 6 respostas
  • Marko Smith

    Como uso currval() no PostgreSQL para obter o último id inserido?

    • 10 respostas
  • Marko Smith

    Como executar o psql no Mac OS X?

    • 11 respostas
  • Marko Smith

    Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Como faço para listar todos os bancos de dados e tabelas usando o psql?

    • 7 respostas
  • Marko Smith

    Passando parâmetros de array para um procedimento armazenado

    • 12 respostas
  • Martin Hope
    Manuel Leduc Restrição exclusiva de várias colunas do PostgreSQL e valores NULL 2011-12-28 01:10:21 +0800 CST
  • Martin Hope
    markdorison Como você mysqldump tabela (s) específica (s)? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Stuart Blackler Quando uma chave primária deve ser declarada sem cluster? 2011-11-11 13:31:59 +0800 CST
  • Martin Hope
    pedrosanta Listar os privilégios do banco de dados usando o psql 2011-08-04 11:01:21 +0800 CST
  • Martin Hope
    Jonas Como posso cronometrar consultas SQL usando psql? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas Como faço para listar todos os bancos de dados e tabelas usando o psql? 2011-02-18 00:45:49 +0800 CST
  • Martin Hope
    BrunoLM Guid vs INT - Qual é melhor como chave primária? 2011-01-05 23:46:34 +0800 CST
  • Martin Hope
    bernd_k Quando devo usar uma restrição exclusiva em vez de um índice exclusivo? 2011-01-05 02:32:27 +0800 CST
  • Martin Hope
    Patrick Como posso otimizar um mysqldump de um banco de dados grande? 2011-01-04 13:13:48 +0800 CST

Hot tag

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve