我正在开发一个模仿https://www.mtgassist.com/的 Python 项目。对于那些不太熟悉的人:Magic 是一款交易卡牌游戏,其中有可收藏的卡牌,价格可能非常昂贵。该项目应该采用一张卡牌的名称,并根据几个功能列出具有类似机制(并且希望更便宜)的其他卡牌,包括描述卡牌功能的“oracle_text”。
- 我正在使用 sklearn 的 TfidfVectorizer,其参数如下:
porter = PorterStemmer()
def tokenizer_stemmer(text: str) -> str:
stop = stopwords.words('english')
return [porter.stem(word) for word in text.split() if word not in stop]
tfidf = TfidfVectorizer(
ngram_range=(1,2)
, tokenizer=tokenizer_stemmer
, stop_words=stopwords.words('english')
)
- 然后我将 TfidfVectorizer.fit_transform 与我之前加载的约 20k 行 pandas DataFrame 一起使用。此过程大约需要25 秒:
token_mat = tfidf.fit_transform(df_not_na['oracle_text'])
- 接下来,我将其转换
token_mat
为形状为 ~(20_000, 90_000) 的 numpy 数组 (token_arr
),并计算所选卡片与数组中所有卡片之间的欧几里得距离(这需要额外的25 秒)。最后,我打印出前 5 张“最接近”的卡片的名称:
token_arr = token_mat.toarray()
distances = []
for _card in tqdm(token_mat):
distances.append(np.linalg.norm(_card - chosen_card_array))
nearest_5 = np.argpartition(distances, 10)[:10]
print(df_not_na.iloc[nearest_5][['name', 'oracle_text']])
我的目标是优化这个过程并减少创建特征向量和计算距离的时间。
我尝试使用二元组而不是 ngram_range=(1,2),但效果并不大。
我也想过使用 numba,但读到 sklearn/numpy 具有类似的嵌入功能,因此不会有太大的好处。
也请告诉我其他建议!谢谢
我发现效率低下有两个原因,
改善这种情况的方法,