我有一串文本和一个单词向量:
String: "Auch ein blindes Huhn findet einmal ein Korn."
Vector: "auch", "ein"
我想检查向量中每个单词在字符串中的出现频率,并计算频率之和。例如,正确的结果应该是3。
我已经能够检查字符串中出现哪些单词并计算总和:
library(stringr)
deu <- c("\\bauch\\b", "\\bein\\b")
str_detect(tolower("Auch ein blindes Huhn findet einmal ein Korn."), deu)
[1] TRUE TRUE
sum(str_detect(tolower("Auch ein blindes Huhn findet einmal ein Korn."), deu))
[1] 2
不幸的是str_detect
,它不返回出现的次数(1, 2
),而只返回单词是否出现在字符串中(TRUE, TRUE
),所以输出的总和str_detect
不等于单词的数量。
preg_match_all
R 中是否有类似于PHP 的函数?
preg_match_all("/\bauch\b|\bein\b/i", "Auch ein blindes Huhn findet einmal ein Korn.", $matches);
print_r($matches);
Array
(
[0] => Array
(
[0] => Auch
[1] => ein
[2] => ein
)
)
echo preg_match_all("/\bauch\b|\bein\b/i", "Auch ein blindes Huhn findet einmal ein Korn.", $matches);
3
我想避免循环。
我看过很多类似的问题,但它们要么不计算出现次数,要么不使用模式向量进行搜索。我可能忽略了一个回答我的问题的问题,但在你将其标记为重复之前,请确保“重复”实际上问的是完全相同的问题。谢谢。