Digamos que eu construa um modelo BERTopic usando
from bertopic import BERTopic
topic_model = BERTopic(n_gram_range=(1, 1), nr_topics=20)
topics, probs = topic_model.fit_transform(docs)
A inspeção probs
me dá apenas um único valor para cada item em docs
.
probs
array([0.51914467, 0. , 0. , ..., 1. , 1. ,
1. ])
Eu gostaria de todo o vetor de probabilidade em todos os tópicos (então, neste caso, onde nr_topics=20
, eu quero um vetor de 20 probabilidades para cada item em docs
). Em outras palavras, se eu tiver N itens em docs
e K tópicos, eu gostaria de uma saída NxK.
Para probabilidade de tópico individual em cada documento, você precisa adicionar mais um argumento.
Nota: Este calculate_probabilities = True só funcionará se você estiver usando
HDBSCAN
o modelo de incorporação de cluster. E o Bertopic usa por padrãoall-MiniLM-L6-v2
.Documentação oficial: https://maartengr.github.io/BERTopic/api/bertopic.html
Eles mencionaram o mesmo no documento também.