mr.questions提出的问题 -coding

mr.questions

Asked: 2025-04-30 10:14:52 +0800 CST

ineq 包中的 Gini() 使用什么公式来获取 R 中的基尼系数？

我正在写一篇论文，我想声明如何使用 ineq 包中的 Gini() 函数获得一些基尼系数，但是在寻找 ineq 包中的 Gini() 使用的公式时，我没有找到任何可靠的来源来了解它采用的公式。

有人知道吗？我读到过它使用了布朗公式，但我也发现它使用了洛伦兹曲线（45° 的曲线和“真实”分布）之间的差异。在ineq 页面中，它只说“Gini() 是基尼系数”。

我不确定在我的论文中应该写哪个公式，欢迎任何帮助。:)

谢谢！

mr.questions

Asked: 2024-11-06 13:37:58 +0800 CST

正确计算逗号分隔字符串中的元素，以及 R 中的“and”和“and/or”，排除某些情况

我有一个数据框，其中有一列包含多个西班牙语单词。我想要计算每行包含的元素总数。我有以下数据框作为示例：

bd_universal <- data.frame(
  cartel = c(
    "Cártel del Pacífico - Fracción Mayo Zambada, Cártel Jalisco",  
    "Cártel Beltran Leyva, Cártel del Pacífico",                  
    "Cártel de Sinaloa y/o Pacífico",                               
    "Leyva y/o Grupo",                                           
    "A, B, C y D",                                                 
    "Cártel del Pacífico - Fracción Los Menores, Cártel Jalisco Nueva Generación, Cártel de Arellano Félix", 
    "A (B y C), D",                                                
    "Leyva, Mayo y Junio Agosto",                                         
    "R (T y P), S, H y/o L")

每行包含的值的总数由三个因素区分：分隔最后一个单词的“y”（“y”在英语中表示“and”），“，”和“y/o”（“y/o”在英语中表示“and/or”）。我想要创建一个名为“total”的新列，用于计算由这些因子分隔的元素数量，除非它们位于括号内。因此，生成的数据框将如下所示：

卡特尔	全部的
Cártel del Pacífico - Fracción Mayo Zambada, Cártel Jalisco	2
-------------------------------------------------- ----------------	--------
卡特尔·贝尔特兰·莱瓦 (Cártel Beltran Leyva)、卡特尔·德尔·太平洋 (Cártel del Pacífico)	2
-------------------------------------------------- ----------------	--------
锡那罗亚和太平洋卡特尔	2
-------------------------------------------------- ----------------	--------
Leyva y/o Grupo	2
-------------------------------------------------- ------------	--------
A、B、C 和 D	4
-------------------------------------------------- ----------------	--------
Cártel del Pacífico - Fracción Los Menores, 卡特尔哈利斯科
新世代，阿雷利亚诺菲利克斯卡特尔	3
-------------------------------------------------- ----------------	--------
A (由 C)、D	2
-------------------------------------------------- ----------------	--------
莱瓦，五月和六月八月	3
-------------------------------------------------- ----------------	--------
R (T y/o P)、S、H y/o L	4
-------------------------------------------------- ----------------	--------

有人知道怎么做吗？

我尝试了以下代码，但它没有计算出每行元素的正确数量：

bd_universal$total <- sapply(as.character(bd_universal$cartel), function(x) {

  x <- gsub("\\(.*?\\)", "", x)

  x <- gsub("y/o", ",y_o,", x)

  x <- gsub("-", " ", x)
  
  x <- gsub("(?<=\\w)\\s*y\\s*(?=\\w)", ",y", x, perl = TRUE)

  x <- gsub(",y_o,", "y/o", x)
  
  elementos <- unlist(strsplit(x, ","))

  elementos <- trimws(elementos) 
  elementos <- elementos[elementos != "Sin registro" & !is.na(elementos) & elementos != ""]
  
  elementos <- gsub("\\s*-\\s*", "", elementos)

  return(length(elementos))
})

使用此代码，诸如“Cártel del Pacífico - Fracción Mayo Zambada, Cártel Jalisco”之类的值将被计为 3，尽管根据我的查找，它们只有 2。

有人知道如何解决这个问题吗？谢谢！