coolhand

Asked: 2024-12-21 04:49:34 +0800 CST2024-12-21 04:49:34 +0800 CST 2024-12-21 04:49:34 +0800 CST

Inspecionar todas as probabilidades do modelo BERTopic

Digamos que eu construa um modelo BERTopic usando

from bertopic import BERTopic
topic_model = BERTopic(n_gram_range=(1, 1), nr_topics=20)
topics, probs = topic_model.fit_transform(docs)

A inspeção probsme dá apenas um único valor para cada item em docs.

probs
array([0.51914467, 0.        , 0.        , ..., 1.        , 1.        ,
       1.        ])

Eu gostaria de todo o vetor de probabilidade em todos os tópicos (então, neste caso, onde nr_topics=20, eu quero um vetor de 20 probabilidades para cada item em docs). Em outras palavras, se eu tiver N itens em docse K tópicos, eu gostaria de uma saída NxK.

1 respostas

Voted

Best Answer

2024-12-22T00:03:22+08:002024-12-22T00:03:22+08:00
Para probabilidade de tópico individual em cada documento, você precisa adicionar mais um argumento.

topic_model = BERTopic(n_gram_range=(1, 1), nr_topics=20, calculate_probabilities=True)

Nota: Este calculate_probabilities = True só funcionará se você estiver usando HDBSCANo modelo de incorporação de cluster. E o Bertopic usa por padrão all-MiniLM-L6-v2.

Documentação oficial: https://maartengr.github.io/BERTopic/api/bertopic.html

Eles mencionaram o mesmo no documento também.
1

Inspecionar todas as probabilidades do modelo BERTopic

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Inspecionar todas as probabilidades do modelo BERTopic

1 respostas

relate perguntas