我正在写一篇论文,我想声明如何使用 ineq 包中的 Gini() 函数获得一些基尼系数,但是在寻找 ineq 包中的 Gini() 使用的公式时,我没有找到任何可靠的来源来了解它采用的公式。
有人知道吗?我读到过它使用了布朗公式,但我也发现它使用了洛伦兹曲线(45° 的曲线和“真实”分布)之间的差异。在ineq 页面中,它只说“Gini() 是基尼系数”。
我不确定在我的论文中应该写哪个公式,欢迎任何帮助。:)
谢谢!
我正在写一篇论文,我想声明如何使用 ineq 包中的 Gini() 函数获得一些基尼系数,但是在寻找 ineq 包中的 Gini() 使用的公式时,我没有找到任何可靠的来源来了解它采用的公式。
有人知道吗?我读到过它使用了布朗公式,但我也发现它使用了洛伦兹曲线(45° 的曲线和“真实”分布)之间的差异。在ineq 页面中,它只说“Gini() 是基尼系数”。
我不确定在我的论文中应该写哪个公式,欢迎任何帮助。:)
谢谢!
我有一个数据框,其中有一列包含多个西班牙语单词。我想要计算每行包含的元素总数。我有以下数据框作为示例:
bd_universal <- data.frame(
cartel = c(
"Cártel del Pacífico - Fracción Mayo Zambada, Cártel Jalisco",
"Cártel Beltran Leyva, Cártel del Pacífico",
"Cártel de Sinaloa y/o Pacífico",
"Leyva y/o Grupo",
"A, B, C y D",
"Cártel del Pacífico - Fracción Los Menores, Cártel Jalisco Nueva Generación, Cártel de Arellano Félix",
"A (B y C), D",
"Leyva, Mayo y Junio Agosto",
"R (T y P), S, H y/o L")
每行包含的值的总数由三个因素区分:分隔最后一个单词的“y”(“y”在英语中表示“and”),“,”和“y/o”(“y/o”在英语中表示“and/or”)。我想要创建一个名为“total”的新列,用于计算由这些因子分隔的元素数量,除非它们位于括号内。因此,生成的数据框将如下所示:
卡特尔 | 全部的 |
---|---|
Cártel del Pacífico - Fracción Mayo Zambada, Cártel Jalisco | 2 |
-------------------------------------------------- ---------------- | -------- |
卡特尔·贝尔特兰·莱瓦 (Cártel Beltran Leyva)、卡特尔·德尔·太平洋 (Cártel del Pacífico) | 2 |
-------------------------------------------------- ---------------- | -------- |
锡那罗亚和太平洋卡特尔 | 2 |
-------------------------------------------------- ---------------- | -------- |
Leyva y/o Grupo | 2 |
-------------------------------------------------- ------------ | -------- |
A、B、C 和 D | 4 |
-------------------------------------------------- ---------------- | -------- |
Cártel del Pacífico - Fracción Los Menores, 卡特尔哈利斯科 | |
新世代,阿雷利亚诺菲利克斯卡特尔 | 3 |
-------------------------------------------------- ---------------- | -------- |
A (由 C)、D | 2 |
-------------------------------------------------- ---------------- | -------- |
莱瓦,五月和六月八月 | 3 |
-------------------------------------------------- ---------------- | -------- |
R (T y/o P)、S、H y/o L | 4 |
-------------------------------------------------- ---------------- | -------- |
有人知道怎么做吗?
我尝试了以下代码,但它没有计算出每行元素的正确数量:
bd_universal$total <- sapply(as.character(bd_universal$cartel), function(x) {
x <- gsub("\\(.*?\\)", "", x)
x <- gsub("y/o", ",y_o,", x)
x <- gsub("-", " ", x)
x <- gsub("(?<=\\w)\\s*y\\s*(?=\\w)", ",y", x, perl = TRUE)
x <- gsub(",y_o,", "y/o", x)
elementos <- unlist(strsplit(x, ","))
elementos <- trimws(elementos)
elementos <- elementos[elementos != "Sin registro" & !is.na(elementos) & elementos != ""]
elementos <- gsub("\\s*-\\s*", "", elementos)
return(length(elementos))
})
使用此代码,诸如“Cártel del Pacífico - Fracción Mayo Zambada, Cártel Jalisco”之类的值将被计为 3,尽管根据我的查找,它们只有 2。
有人知道如何解决这个问题吗?谢谢!