AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / dba / Perguntas / 255
Accepted
BrunoLM
BrunoLM
Asked: 2011-01-05 22:31:44 +0800 CST2011-01-05 22:31:44 +0800 CST 2011-01-05 22:31:44 +0800 CST

Qual agrupamento devo escolher para um site multilíngue?

  • 772

Um agrupamento tem alguma influência sobre a velocidade de uma consulta? O tamanho de uma tabela muda dependendo do agrupamento?

Se eu quiser criar um site que suporte todos os idiomas possíveis (vamos, por exemplo, Google), qual seria o agrupamento recomendado?

Vou precisar armazenar caracteres como 日本語, minhas pesquisas no site terão que retornar somethingpara a sóméthíngentrada, deve ser insensível a maiúsculas e minúsculas também.

Como sei qual é a melhor escolha a fazer? Qual agrupamento se adapta melhor a este caso?

sql-server performance
  • 3 3 respostas
  • 5177 Views

3 respostas

  • Voted
  1. Best Answer
    TML
    2011-01-05T22:46:58+08:002011-01-05T22:46:58+08:00

    De um modo geral, uma das variantes Unicode é provavelmente a melhor para amplo suporte a idiomas - UTF-8 usará menos memória por ponto de código e, portanto, terá uma pequena vantagem em qualquer troca de tempo/espaço que você precise fazer; no entanto, acho que existem alguns dos idiomas/scripts mais esotéricos que o UTF-8 não pode representar (mas não tenho 100% de certeza disso, não fiz um estudo exaustivo sobre o assunto).

    Este artigo da Wikipedia pode ser esclarecedor sobre as desvantagens/vantagens de cada um.

    • 16
  2. Marian
    2011-01-15T07:39:07+08:002011-01-15T07:39:07+08:00

    Acredito que você deva usar um agrupamento Unicode que não diferencie acentos e maiúsculas de minúsculas. Leia os artigos do MSDN Selecionando Collation e Usando SQL Collations e todos os artigos vinculados.

    • 8
  3. Jonas Kölker
    2015-04-21T12:59:18+08:002015-04-21T12:59:18+08:00

    Acho que a pergunta declarada (em 20/04/2015, "Qual agrupamento [...]") não é o que se quer dizer, visto que a resposta aceita fala sobre codificação em vez de agrupamento. Deixe-me responder à pergunta formulada em vez da pretendida, só porque acho interessante :-)

    A Wikipedia diz que "agrupamento é a montagem de informações escritas em uma ordem padrão". Na computação, o agrupamento assumiu o significado de "uma especificação de tal ordem". Em outras palavras, um agrupamento é (ou implica) uma definição de uma função de comparação de três vias.

    Acho que a resposta curta é "definitivamente talvez". Pelo menos estou ciente das seguintes travessuras:

    #!/usr/bin/python
    name = u"Jonas K\xf6lker" # \xf6 is o-umlaut
    enc = name.encode('utf-8')
    assert len(name) == 12  # \xf6 is one character
    assert len(enc) == 13   # but two bytes in utf-8
    
    import locale
    locale.setlocale(locale.LC_COLLATE, "da_DK.utf8") # works on my machine
    long_form = locale.strxfrm(enc)
    assert len(long_form) == 38
    

    locale.strxfrmé uma função que Returns a string that behaves for cmp locale-aware, ou seja, codifica uma string de forma que uma comparação lexicográfica padrão byte a byte com outra string codificada de forma semelhante produzirá o mesmo resultado que comparar strings de acordo com a função de collation especificada pelo locale.

    Algumas observações: em da_DK.utf8, a string ouüöestá ordenada. Em de_DE.utf8, a string oöuüé classificada. Observe que len(long_form) == 38e 38 > 13. (O comprimento também é 38 pol de_DE.utf8.)

    Se seu banco de dados possui um índice em algum campo de string, agrupado de acordo com da_DK.utf8, ele pode estar internamente fazendo algo como strxfrmpara ter uma comparação simples. (Por outro lado, os discos são lentos. Pode ser mais rápido indexar com base em uma representação mais compacta, se um custo de comparação por caractere mais alto for mais do que compensado comparando menos caracteres.)

    Você pergunta "Um agrupamento tem alguma influência sobre a velocidade de uma consulta?", para o qual tenho certeza de que a resposta é sim: o agrupamento "C" (também conhecido como "POSIX") apenas compara valores de ponto de código unicode, enquanto o dinamarquês ( da_DK.utf8) e os locais alemães ( de_DE.utf8) fazem algo mais complicado. Isso terá algum impacto na velocidade da consulta, embora eu suspeite que não valha a pena se preocupar com isso.

    "O tamanho de uma tabela muda dependendo do agrupamento?" — Posso imaginar ter um índice de acordo com um agrupamento e um índice diferente de acordo com outro agrupamento, ou apenas um desses dois índices, com alguma strxfrmtransformação semelhante a aplicada. Nesse cenário hipotético, se houver dois agrupamentos com características de tamanho diferentes, a resposta é sim.

    "qual seria o agrupamento recomendado?" — Isso depende de por que você precisa classificar strings. Se for apenas para ter uma maneira canônica de ordenar strings, provavelmente irei com "C". Se for para apresentar dados aos usuários em ordem de classificação de acordo com as expectativas do ser humano, e essas expectativas são moldadas por sua cultura, e você deseja que o banco de dados (e não alguma outra camada) faça a classificação, talvez você deva criar um índice por agrupamento , ou seja, pelo menos um de acordo com da_DK.utf8os dinamarqueses e um de acordo com de_DE.utf8os alemães. Eu acho que isso pode ficar bastante grande rapidamente, no entanto.

    Tudo isso depende muito do funcionamento interno do seu banco de dados; Acho que vai muito além do SQL "padronizado" (lol!). Como sempre, consulte a documentação do seu sistema de banco de dados específico.

    • 8

relate perguntas

  • Quais são as principais causas de deadlocks e podem ser evitadas?

  • Como determinar se um Índice é necessário ou necessário

  • Onde posso encontrar o log lento do mysql?

  • Como posso otimizar um mysqldump de um banco de dados grande?

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Como você mysqldump tabela (s) específica (s)?

    • 4 respostas
  • Marko Smith

    Como você mostra o SQL em execução em um banco de dados Oracle?

    • 2 respostas
  • Marko Smith

    Como selecionar a primeira linha de cada grupo?

    • 6 respostas
  • Marko Smith

    Listar os privilégios do banco de dados usando o psql

    • 10 respostas
  • Marko Smith

    Posso ver Consultas Históricas executadas em um banco de dados SQL Server?

    • 6 respostas
  • Marko Smith

    Como uso currval() no PostgreSQL para obter o último id inserido?

    • 10 respostas
  • Marko Smith

    Como executar o psql no Mac OS X?

    • 11 respostas
  • Marko Smith

    Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Como faço para listar todos os bancos de dados e tabelas usando o psql?

    • 7 respostas
  • Marko Smith

    Passando parâmetros de array para um procedimento armazenado

    • 12 respostas
  • Martin Hope
    Manuel Leduc Restrição exclusiva de várias colunas do PostgreSQL e valores NULL 2011-12-28 01:10:21 +0800 CST
  • Martin Hope
    markdorison Como você mysqldump tabela (s) específica (s)? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Stuart Blackler Quando uma chave primária deve ser declarada sem cluster? 2011-11-11 13:31:59 +0800 CST
  • Martin Hope
    pedrosanta Listar os privilégios do banco de dados usando o psql 2011-08-04 11:01:21 +0800 CST
  • Martin Hope
    Jonas Como posso cronometrar consultas SQL usando psql? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas Como faço para listar todos os bancos de dados e tabelas usando o psql? 2011-02-18 00:45:49 +0800 CST
  • Martin Hope
    BrunoLM Guid vs INT - Qual é melhor como chave primária? 2011-01-05 23:46:34 +0800 CST
  • Martin Hope
    bernd_k Quando devo usar uma restrição exclusiva em vez de um índice exclusivo? 2011-01-05 02:32:27 +0800 CST
  • Martin Hope
    Patrick Como posso otimizar um mysqldump de um banco de dados grande? 2011-01-04 13:13:48 +0800 CST

Hot tag

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve