将复制活动的序列号添加到 Blob

Question

mr.questions

Asked: 2024-11-06 13:37:58 +0800 CST2024-11-06 13:37:58 +0800 CST 2024-11-06 13:37:58 +0800 CST

正确计算逗号分隔字符串中的元素，以及 R 中的“and”和“and/or”，排除某些情况

772

我有一个数据框，其中有一列包含多个西班牙语单词。我想要计算每行包含的元素总数。我有以下数据框作为示例：

bd_universal <- data.frame(
  cartel = c(
    "Cártel del Pacífico - Fracción Mayo Zambada, Cártel Jalisco",  
    "Cártel Beltran Leyva, Cártel del Pacífico",                  
    "Cártel de Sinaloa y/o Pacífico",                               
    "Leyva y/o Grupo",                                           
    "A, B, C y D",                                                 
    "Cártel del Pacífico - Fracción Los Menores, Cártel Jalisco Nueva Generación, Cártel de Arellano Félix", 
    "A (B y C), D",                                                
    "Leyva, Mayo y Junio Agosto",                                         
    "R (T y P), S, H y/o L")

每行包含的值的总数由三个因素区分：分隔最后一个单词的“y”（“y”在英语中表示“and”），“，”和“y/o”（“y/o”在英语中表示“and/or”）。我想要创建一个名为“total”的新列，用于计算由这些因子分隔的元素数量，除非它们位于括号内。因此，生成的数据框将如下所示：

卡特尔	全部的
Cártel del Pacífico - Fracción Mayo Zambada, Cártel Jalisco	2
-------------------------------------------------- ----------------	--------
卡特尔·贝尔特兰·莱瓦 (Cártel Beltran Leyva)、卡特尔·德尔·太平洋 (Cártel del Pacífico)	2
-------------------------------------------------- ----------------	--------
锡那罗亚和太平洋卡特尔	2
-------------------------------------------------- ----------------	--------
Leyva y/o Grupo	2
-------------------------------------------------- ------------	--------
A、B、C 和 D	4
-------------------------------------------------- ----------------	--------
Cártel del Pacífico - Fracción Los Menores, 卡特尔哈利斯科
新世代，阿雷利亚诺菲利克斯卡特尔	3
-------------------------------------------------- ----------------	--------
A (由 C)、D	2
-------------------------------------------------- ----------------	--------
莱瓦，五月和六月八月	3
-------------------------------------------------- ----------------	--------
R (T y/o P)、S、H y/o L	4
-------------------------------------------------- ----------------	--------

有人知道怎么做吗？

我尝试了以下代码，但它没有计算出每行元素的正确数量：

bd_universal$total <- sapply(as.character(bd_universal$cartel), function(x) {

  x <- gsub("\\(.*?\\)", "", x)

  x <- gsub("y/o", ",y_o,", x)

  x <- gsub("-", " ", x)
  
  x <- gsub("(?<=\\w)\\s*y\\s*(?=\\w)", ",y", x, perl = TRUE)

  x <- gsub(",y_o,", "y/o", x)
  
  elementos <- unlist(strsplit(x, ","))

  elementos <- trimws(elementos) 
  elementos <- elementos[elementos != "Sin registro" & !is.na(elementos) & elementos != ""]
  
  elementos <- gsub("\\s*-\\s*", "", elementos)

  return(length(elementos))
})

使用此代码，诸如“Cártel del Pacífico - Fracción Mayo Zambada, Cártel Jalisco”之类的值将被计为 3，尽管根据我的查找，它们只有 2。

有人知道如何解决这个问题吗？谢谢！

3 个回答

Voted

Andre Wildberg · Answer 1 · 2024-11-06T19:51:49+08:00

一种使用最少正则表达式的方法，首先删除括号(...)，依赖于括号始终是闭合的这一事实。然后给出strsplit所有拆分参数。最后获取向量lengths。

transform(bd_universal, total = 
  lengths(strsplit(sub("\\(.*\\)", "", cartel), ",|y/o| y ")))

输出

                                                                                                 cartel
1                                           Cártel del Pacífico - Fracción Mayo Zambada, Cártel Jalisco
2                                                             Cártel Beltran Leyva, Cártel del Pacífico
3                                                                        Cártel de Sinaloa y/o Pacífico
4                                                                                       Leyva y/o Grupo
5                                                                                           A, B, C y D
6 Cártel del Pacífico - Fracción Los Menores, Cártel Jalisco Nueva Generación, Cártel de Arellano Félix
7                                                                                          A (B y C), D
8                                                                            Leyva, Mayo y Junio Agosto
9                                                                                 R (T y P), S, H y/o L
  total
1     2
2     2
3     2
4     2
5     4
6     3
7     2
8     3
9     4

(...)注意，如果一个向量中有多个，则替换sub(...为gsub("\\([ [:alnum:]/]*\\)", "", cartel)

pachadotdev · Answer 2 · 2024-11-06T13:53:45+08:00

我会把这个问题分解成子问题。

以下是我的分步食谱：

忽略括号
将“y/o”转换为“ y_o ”，以避免弄乱“/o”部分
将“y”视为另一个“逗号”
恢复步骤 2
用逗号分隔

# your data
bd_universal <- data.frame(
  cartel = c(
    "Cártel del Pacífico - Fracción Mayo Zambada, Cártel Jalisco",  
    "Cártel Beltran Leyva, Cártel del Pacífico",                  
    "Cártel de Sinaloa y/o Pacífico",                               
    "Leyva y/o Grupo",                                           
    "A, B, C y D",                                                 
    "Cártel del Pacífico - Fracción Los Menores, Cártel Jalisco Nueva Generación, Cártel de Arellano Félix", 
    "A (B y C), D",                                                
    "Leyva, Mayo y Junio Agosto",                                         
    "R (T y P), S, H y/o L")
)

# recipe
bd_universal$total <- sapply(as.character(bd_universal$cartel), function(x) {
  # step 1
  x <- gsub("\\(.*?\\)", "", x)

  # step 2
  x <- gsub("y/o", "_y_o_", x)

  # step 3
  x <- gsub("(?<=\\w)\\s+y\\s+(?=\\w)", ",", x, perl = TRUE)

  # step 4
  x <- gsub("_y_o_", "y/o", x)

  # step 5
  elementos <- trimws(unlist(strsplit(x, ",")))

  length(elementos[elementos != ""])
})

结果

> bd_universal$total 
[1] 2 2 1 1 4 3 2 3 3

Edward · Answer 3 · 2024-11-06T15:49:26+08:00

Edward

2024-11-06T15:49:26+08:002024-11-06T15:49:26+08:00

您可以使用strplit任何字符进行拆分，使用 perl 的负向前/向后正则表达式对括号取反，然后计算每个元素的长度：

sapply(strsplit(bd_universal$cartel, 
                split="(?<![(].) y (?!.[)])|,|(?<![(].) y/o (?!.[)])", 
                perl=TRUE), 
       FUN=length)
[1] 2 2 2 2 4 3 2 3 4

此正则表达式适用于您的示例。但是，如果您想对任何长度超过 1 个字符（例如(ABC y DEF)）的内容使用负向前瞻/后瞻，则需要对点添加限制.，例如.{1, 15}：

strsplit(cartel, "(?<![(].{1,15}) y (?!.{1,15}[)])|,|(?<![(].{1,15}) y/o (?!.{1,15}[)])", perl=TRUE)

0

正确计算逗号分隔字符串中的元素，以及 R 中的“and”和“and/or”，排除某些情况

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

正确计算逗号分隔字符串中的元素，以及 R 中的“and”和“and/or”，排除某些情况

3 个回答

相关问题