Estou criando um banco de dados que referencia imagens. Palavras-chave e legendas farão parte dos metadados. Essas legendas e palavras-chave não são necessariamente adicionadas às fotos com a intenção de facilitar buscas de qualidade.
Gostaria de converter efetivamente as informações nas legendas em palavras-chave. Obviamente, algumas das palavras nas legendas não serão úteis (por exemplo, "the","he","she","of",etc.) e eu as excluiria, mas outras palavras serão muito úteis, especialmente se forem aparecem em combinação com outras palavras.
Estou tentando descobrir a melhor maneira de associar essas palavras-chave e palavras das legendas às imagens. Seria melhor criar uma tabela de imagens (nomes de arquivo, caminho para arquivo, tamanho, etc.) e uma tabela de palavras, onde cada palavra tem um ID e, em seguida, uma tabela associativa que referencia as palavras às imagens? Ou talvez duas tabelas associativas, uma para vincular palavras de legenda e outra para vincular palavras-chave?
Será esta uma boa abordagem?
A melhor solução depende do seu RDBMS, mas em geral você não precisa limpar manualmente as legendas porque o banco de dados terá uma "lista de palavras irrelevantes" ou "lista de palavras irrelevantes" que é usada para excluir palavras de um índice de texto completo (não o o mesmo que um índice clusterizado/não clusterizado regular). Você pode modificar essa lista para especificar quais palavras são excluídas do índice de texto completo. Na maioria dos bancos de dados, a lista já incluiria preposições, pronomes e outras palavras de ruído, o que significa que uma pesquisa por pássaros E vôo retornaria uma legenda de "pássaros em vôo" (supondo que exista). Além disso, a maioria dos sistemas pode conter os termos indexados e fornecer a capacidade de pesquisar as flexões de um termo, por exemplo, pesquisar as flexões de "voar" retornará voando, voou, voou, etc.
Se as legendas forem as palavras-chave, você não precisará analisar as palavras-chave delas; basta adicionar um índice de texto completo à coluna de legenda. Se você tiver ou quiser adicionar mais palavras-chave além das legendas, poderá indexá-las separadamente e usá-las para aumentar ou modificar a pesquisa de legenda usando a classificação/pontuação numérica incorporada do RDBMS dos resultados - uma ocorrência em uma palavra-chave pode aumentar a classificação enquanto uma falha não pode fazer nada ou até diminuí-la.
Se as legendas tiverem uma relação de 1:1 com as imagens (o que geralmente acontece), você nem precisa de uma tabela separada para elas; basta armazenar a legenda em outra coluna da tabela de imagens. Palavras-chave adicionais podem ser normalizadas e armazenadas em uma tabela separada, o que exigiria uma tabela de junção intermediária com chaves estrangeiras de imagens e palavras-chave. No entanto, isso aumenta a complexidade e você pode achar melhor apenas armazenar uma lista de palavras delimitadas por espaços em outra coluna na tabela de imagens.
A solução que você selecionar dependerá de vários fatores, incluindo necessidades de negócios, requisitos de desempenho e casos de uso, ou seja, quais tipos de pesquisas você precisa oferecer suporte: frase exata, booleano AND/OR, correspondências difusas como SOUNDEX, etc. Às vezes, a indexação de texto completo não é nem é necessário. Por exemplo, se a exclusão de palavras derivadas e de ruído não for importante, uma pesquisa usando LIKE com curingas pode ser suficiente.