我正在撰写一篇科学医学论文,使用 HADS-Score 评估患者的焦虑和抑郁程度。该评分由 14 个项目组成,分为两个子量表(HADS-D、HADS-A),每个子量表有 7 个项目,可能的值从 0 到 3 分。我有缺失数据,想替换它们。根据评分手册,如果一个子量表中有多个缺失项目,我必须删除该观察结果。如果每个子量表只缺少一个项目,我可以用当前六个项目的平均值替换缺失项目。我将每个观察结果的 HADS-Score 项目存储在以下变量中:
- 子量表 HADS-D(加起来等于总子量表 = hads_anx_score)。变量:hads_tense_rec、hads_glad_rec、hads_omen_rec、hads_laugh_rec、hads_trouble_rec、hads_happy_rec、hads_relax_rec
- 子量表 HADS-A(加起来等于总子量表 = hads_depr_score)。变量:hads_limited_rec、hads_scary_rec、hads_looks_rec、hads_restless_rec、hads_future_rec、hads_panic_rec、hads_enjoy_rec
我把代码分解为以下步骤:
初始化子量表分数:为子量表 HADS-D 和 HADS-A 创建变量。
识别缺失值。我创建了一个新变量
is_missing_
来识别它是否缺失。使用 来计算缺失项目,
egen
以rowtotal
计算每个子量表中缺失项目的数量。删除观察结果:我删除了任一子量表中缺少多个项目的观察结果。
替换每个子量表中缺失的项目。如果某个项目缺失,则用子量表中其他六个项目的平均值替换。
计算总分:将各分量表的分数相加,得到最终分数。
问题:不知何故,我的代码没有用我在步骤 5中创建的循环替换每个子量表中缺失的项目,并且留下了缺失的数据(==。)
*STEP 1: Initialize the HADS-A and HADS-D subscales
gen hads_anx_score = .
gen hads_depr_score = .
* STEP 2:Loop over each observation
foreach var in hads_tense_rec hads_glad_rec hads_omen_rec hads_laugh_rec hads_trouble_rec hads_happy_rec hads_relax_rec hads_limited_rec hads_scary_rec hads_looks_rec hads_restless_rec hads_future_rec hads_panic_rec hads_enjoy_rec {
gen is_missing_`var' = missing(`var')
}
* STEP 3: Calculate the number of missing items per subscale
egen missing_hads_anx = rowtotal(is_missing_hads_tense_rec is_missing_hads_glad_rec is_missing_hads_omen_rec is_missing_hads_laugh_rec is_missing_hads_trouble_rec is_missing_hads_happy_rec is_missing_hads_relax_rec)
egen missing_hads_depr = rowtotal(is_missing_hads_limited_rec is_missing_hads_scary_rec is_missing_hads_looks_rec is_missing_hads_restless_rec is_missing_hads_future_rec is_missing_hads_panic_rec is_missing_hads_enjoy_rec)
* STEP 4. Drop observations with more than one missing item in any subscale
drop if missing_hads_anx > 1 | missing_hads_depr > 1
**STEP 5.** Replace single missing items with the mean of the present six items
foreach var in hads_tense_rec hads_glad_rec hads_omen_rec hads_laugh_rec hads_trouble_rec hads_happy_rec hads_relax_rec {
qui replace `var' = (hads_tense_rec + hads_glad_rec + hads_omen_rec + hads_laugh_rec + hads_trouble_rec + hads_happy_rec + hads_relax_rec - `var') / 6 if is_missing_`var' == 1 & missing_hads_anx == 1
}
foreach var in hads_limited_rec hads_scary_rec hads_looks_rec hads_restless_rec hads_future_rec hads_panic_rec hads_enjoy_rec {
qui replace `var' = (hads_limited_rec + hads_scary_rec + hads_looks_rec + hads_restless_rec + hads_future_rec + hads_panic_rec + hads_enjoy_rec - `var') / 6 if is_missing_`var' == 1 & missing_hads_depr == 1
}
现在,如果我运行**第五步**,仍然有缺失的数据(例如 hads_limited_rec == . )。
数据示例将大有帮助。但是,似乎可以识别您的错误。在此过程中,我将建议简化您的代码。
步骤 1 似乎毫无意义。您永远不会使用或更改这些变量。
步骤 2 和 3 可以用两个语句代替。您不需要任何缺失指示变量。
步骤 4 看起来不错。
步骤 5 中的代码存在错误。如果任何原始变量缺失,RHS 始终会缺失,否则确实如此。细微的差别在于
generate
不会忽略总数中的缺失值,而egen
存在可以做到这一点的函数。本质上
3 + .
返回的是缺失值,而不是缺失值3
(对于任何其他非缺失值和缺失值的总和也是如此)。您首先需要非缺失值的平均值。
然后您需要非缺失值的总数。
然后,当且仅当每种情况下都有一个缺失值时,最终结果才应该是固定的:
或者,每当缺少一项时,解决方法就是 (7/6) 从 6 项中获得分数。