文中介绍的G*Power软件很好o
小型综述文章
医学前沿,2023年8月16日
胃肠病学版块
第10卷 - 2023 | https://doi.org/10.3389/fmed.2023.1215927
如何计算动物和人类研究中的样本量
Xinlian Zhang<sup>1</sup>, Phillipp Hartmann<sup>2,3</sup>*
- 加州大学圣地亚哥分校赫伯特·韦特海姆公共卫生与人类长寿科学学院,生物统计与生物信息学部,美国加州拉霍亚
- 加州大学圣地亚哥分校儿科学系,美国加州拉霍亚
- 圣地亚哥雷迪儿童医院,胃肠病学、肝病学和营养学部,美国加州圣地亚哥
在设计动物和人类研究时,最重要的统计分析之一是计算所需样本量。在这篇综述中,我们定义了样本量确定背景下的核心术语,包括平均值、标准差、统计假设检验、I/II 型错误、功效、效应方向、效应大小、预期损耗、校正样本量和分配比率。我们还提供了基于初步研究、与拟议研究类似的大型研究的动物和人类研究样本量计算的实例——或者在没有既往研究可用的情况下——根据 Cohen 和 Sawilowsky 估算的效应大小。
引言
样本量是指研究中包含的患者或动物的数量,这是设计人类或动物研究时首要回答的问题之一。不难理解,小于必要样本量的研究会导致统计功效不足以回答研究问题,并降低达到统计学显著性的机会。然而,样本量的选择也并非越大越好。大样本量能更好地代表总体,因此能提供更准确的结果。但是,在某一点之后,准确性的提高将是微小且临床上无关紧要的,因此不值得付出额外的努力和成本。在一些研究中,过大的样本量会使超过必要数量的患者/动物暴露于潜在有毒的程序中,这是不道德的。样本量的确定取决于研究设计和研究目的。在大多数情况下,样本量可以通过假设检验来确定,这样我们就可以在具有统计学显著性和实际相关性的情况下,以合理的统计功效拒绝零假设。这些程序必须考虑 I 型和 II 型错误的大小以及总体方差和感兴趣结果的效应大小。也存在一些情况,例如民意调查,其中样本量计算通常以可接受的小误差范围为目标,而不管统计功效、I/II 型错误和效应大小如何。在本研究中,我们主要关注前者。
定义
在本研究中,我们使用 表示给定变量的 个数据点,我们主要考虑连续变量的情况。
均值和标准差(SD)
均值,即特定组中所有值的平均值,,是位置的汇总。标准差描述了变量的离散度和变异性,;具体来说,它衡量了数据点与均值的平均偏差。
统计假设检验
统计假设检验是一种统计推断工具,它利用收集的数据来确定是否有强有力的证据来拒绝某个假设,我们称之为零假设。通常,零假设是关于没有相关关联或效应的陈述。在设立零假设的同时,我们还有一个备择假设,它支持存在相关关联或效应。在这篇综述中,我们主要关注比较两组均值的情况。那么,零假设是两组中连续变量的均值相同 ()。备择假设是两组连续变量的均值之间存在非零差异。根据零假设,计算一个检验统计量,并与零假设下的临界值(在给定的显著性水平下,例如 )进行比较。检验统计量衡量了在零假设为真的情况下我们观察到当前数据的可能性有多小。通常,较大的检验统计量(绝对值大于临界值)意味着我们观察到当前数据的可能性越小。因此,我们倾向于接受备择假设。
I 型错误
在统计假设检验中,I 型错误是拒绝一个真实零假设的概率,即这是一个“假阳性”结论。这是我们在统计假设检验中选择使用的显著性水平 ()。 的常用选择是 0.05 或 0.01。值得注意的是,I 型错误是在计算样本量之前确定的。
II 型错误和功效
与 I 型错误相反,II 型错误(表示为 )在统计假设检验中是指未能拒绝一个错误零假设的概率,即这是一个“假阴性”结论。统计检验的功效(= 1 – II 型错误)是检测到真实关联的概率,即拒绝一个错误零假设的概率。 的常用选择是 0.2、0.1 或 0.05。
效应方向
这指的是何时拒绝零假设。在双尾检验中,如果一组的均值与另一组的均值不同(更高或更低;),则拒绝零假设。在单尾检验中,如果特定一组的均值高于另一组的均值 (),则拒绝零假设,但如果它较低则不拒绝。如果我们使用单侧检验,假设检验中的临界值基于检验统计量分布的顶端 百分位数;如果我们使用双侧检验,临界值是顶端 百分位数。实际上,单侧检验比双侧检验需要更小的样本量(见下文)。
效应大小
效应大小是衡量所声claim关联强度的值。因此,效应大小与所使用的统计检验密切相关。例如,如果我们假设疾病组和健康组某一生物标志物的均值存在组间差异,那么 Cohen's d 是一种常用的效应大小,定义为两个均值之差除以数据的合并标准差,即 ,其中 s 是合并标准差 ,或者在样本量相等的情况下 。效应大小最关键的特征是它不受样本量的影响。效应大小通常可以使用在较小规模研究中观察到的初步数据或类似研究的文献来计算。在实践中,如果从业者对该生物标志物有经验,那么根据经验定义一个具有临床相关性的效应大小是很有帮助的。如果没有历史数据或手头没有关于该生物标志物的经验,Cohen 和 Sawilowsky 1, 2 制定了 到 的通用经验法则,其中效应大小分为小 ()、中 ()、大 () 和巨大 ()(见补充材料 1)。当我们比较两组中的比例时,这也可以被视为比较两组中二元结果的均值,效应大小和样本量可以通过专为比例设计的类似指标来计算,例如 Cohen's h 或 Cohen's ω 1。
如果使用其他类型的关联或假设,例如,比较多个组的均值,则应选择不同类型的效应大小,我们将在后面的部分简要讨论。
关联统计检验和样本量计算
在 的简化设置中,对于显著性水平为 、功效为 的双样本双侧 t 检验,我们可以粗略地将所需样本量写为 ,其中 和 分别是标准正态分布的 和 百分位数(更详细的计算,见补充材料 2)。在这里,我们使用近似值,因此该公式可能略微低估了所需样本量。然后,我们将 向上取整到下一个最小的整数。使用这个简化的公式,我们注意到一些普遍适用且有用的关系:(1) 所需样本量与效应大小呈负相关,即,为了检测到更小的效应大小,我们需要更大的样本量;(2) 如果我们降低预设的容忍 I 型 () 和 II 型错误 (),或者增加预期的功效 (),那么所需样本量也更大;(3) 在实践中,我们通常设置 和效应大小 ,然后计算所需样本量 ;然而,也可以设置 和可用的样本量 ,计算可检测的效应大小 ,并将该可检测的效应大小与临床或实践相关的效应大小进行比较。
预期损耗和校正样本量
计算出的所需样本量是达到预设参数所需的最小数量。在实践中,研究期间通常会有退出。例如,如果我们预计有 10% 的退出或损耗率,那么我们最终的校正样本量将是最小所需样本量除以 0.9 = 90% (= 100% - 10%)。
分配比率
尽管在动物实验组或人体治疗组中以 1:1 的比例进行随机分配长期以来一直是标准 3,但也可以采用 2:1 或 3:1 等替代分配比率,即每有一个接受安慰剂的个体入组,就有两个或三个个体接受药物。这在人体研究中通常是为了在患者需求增加的情况下提高总体入组率,以增加他们接受研究药物的可能性,或者采用这些替代分配比率以更多地了解药物的药代动力学和不良反应 4。然而,要以同等的功效检测相同大小的效应,2:1 的分配比率需要比 1:1 的分配比率多 12% 的受试者,而 3:1 的分配比率则需要多 33% 的受试者 3(理由也见补充材料 2)。
其他类型的检验和功效计算
在上述讨论中,我们主要关注比较两组的均值。如果我们有其他科学问题,例如,比较两个以上组中连续变量的均值,研究两个连续变量之间的关联,以及探索多元回归中解释的方差,那么我们使用的相应检验是方差分析 (ANOVA) 的 F 检验、皮尔逊相关系数的 Z 检验,以及基于多元回归模型 的 F 检验。F 检验和皮尔逊相关系数的相应效应大小分别是 Cohen's 和皮尔逊相关系数 5。我们可以推导出类似的公式来计算检测给定效应大小所需的样本量。
软件
有许多合适的程序可以计算样本量,包括 G*Power 6、R 统计软件 7、Epitools 8、OpenEpi 9 和 Biomath 10。一个简单直观的程序是 G*Power 6,我们将在下面用它来说明我们的动物和人类样本量计算示例。作为替代方案,我们将在补充材料 3 中提供相同计算的 R 代码 7。
动物研究
在本节中,我们将提供动物研究样本量计算的实际例子。为了估计动物研究的样本量,更困难的部分之一是确定效应大小。效应大小取决于研究人员想要检查的各个结果。例如,在西方饮食诱导的肝病小鼠模型中,最重要的结果之一是肝脏甘油三酯浓度 11。如果研究人员旨在研究一种药物,例如胆汁酸结合剂,对饮食诱导的肝病的影响,他/她可以尝试从与他/她提议的项目相似的研究中推断结果——以及预期的效应大小。胆汁酸结合剂 colesevelam 在西方饮食喂养后,可将小鼠肝脏甘油三酯浓度降低至 143.26 mg/g 肝重(标准差 [SD] 54.50 mg/g),而未用胆汁酸螯合剂治疗的西方饮食喂养组为 192.84 mg/g(SD 48.90 mg/g)11。效应大小可以用 G*Power 6、其他软件或手动计算 1:Cohen's (图 1A)。采用双尾计算,效应大小为 0.96,I 型错误为 0.05,功效为 0.8,分配比率为 1:1,提议的新胆汁酸结合剂实验每组的原始样本量为 19,考虑到 10% 的损耗,每组的校正样本量为 22(19/0.9=21.11)(图 1A)。然而,如果选择另一个结果,例如肝脏炎症标志物,例如肿瘤坏死因子 (TNF) 的基因表达,在 colesevelam 治疗组中为 1.65 相对单位(SD 0.85),而未经治疗的组为 3.37(SD 1.59),效应大小要高得多,为 1.35,导致每组样本量较低,为 10(图 1B),考虑到 10% 的预期损耗,校正样本量为每组 12(10/0.9 = 11.11)。这表明计算出的样本量明显取决于所选的结果变量。此外,降低容忍的 I 型错误(例如,从 0.05 降至 0.01)或增加功效(例如,从 0.8 增至 0.95)会增加每组所需的样本量(例如,分别从 10 增至 15 或从 10 增至 16,图 1C, D)。
除了将预期结果外推到相似的实验环境外,还可以根据小样本量的初步实验来计算更大实验的样本量。如果一项为期 9 个月的初步实验显示,某种药物在五只大鼠中减少了肿瘤生长(分别为 4、3、6、4 和 4 个肿瘤/大鼠;平均 4.2 个肿瘤/大鼠,SD 1.10),而五只对照组大鼠(分别为 6、5、4、7、5 个肿瘤/大鼠;平均 5.4,SD 1.14, 学生 t 检验),效应大小为 1.07,使用双尾分析,更大实验的计算总样本量为每组 15 只大鼠。在这种情况下,也可以使用单尾分析,因为初步实验表明该药物可能对肿瘤生长具有保护作用,后续实验将更侧重于药物是否确实显著降低了相对于对照组的肿瘤负荷,而不是对照组是否会比药物组的肿瘤负荷显著降低。计算出的每组样本量将是单尾分析的 12 只大鼠,与双尾分析的每组 15 只大鼠相比,可能会显著降低在长达 9 个月的实验期间维持啮齿动物的成本(在校正损耗之前)。
动物模型通常包括四组 12, 13, 14,其中两组可能采用特殊饮食(或具有特定基因型),另外两组采用对照饮食(或是野生型小鼠等)。此外,特殊饮食组中的一组和对照饮食组中的一组可能会接受药物治疗,另外两组则不接受治疗。了解药物是否改善了由特殊饮食引起的某种疾病,与另一组喂食特殊饮食但未接受药物治疗的组相比,这是非常重要的。然而,提交的手稿或基金申请的审稿人有时可能会提出问题,即对照动物(即对照饮食的两组,不是主要关注对象)的最合适样本量是多少。许多文章通常只使用五只或更少的啮齿动物作为对照组,特别是在那些由于特殊饮食、基因型或类似条件而导致明显疾病表型的啮齿动物模型中 13, 15, 16, 17, 18。高脂饮食诱导的肥胖小鼠模型可以作为例子,在该模型中,小鼠在高脂饮食下 16 周内平均增重 15.75 克(SD 7.63),而对照饮食的对照组小鼠增重 2.5 克(SD 2.65)17。使用 3:1 的分配比率和双尾分析,对照组的估计未校正样本量为 3,高脂饮食组为 9。单尾分析将提供对照组未校正样本量为 2,高脂饮食组为 6,使用 3:1 的分配比率。在饮食诱导的代谢疾病(包括 2 型糖尿病 19 或非酒精性脂肪性肝炎 20)以及化学诱导的疾病(例如,葡聚糖硫酸钠诱导的结肠炎 21)或(至少部分)遗传性疾病(例如阿尔茨海默病 18 或自闭症 22)的啮齿动物模型中,可以获得清晰的表型。在这些具有成熟啮齿动物模型和独特表型的情况下,无论是否进行功效计算,使用五个或更少的未经处理的对照组都是可以接受的,因为更主要的是关注干预(例如药物)是否改变了实验组的表型,与没有药物的实验组相比。另一方面,如上所述,对这些实验组进行功效计算至关重要。
人类研究
人类研究的样本量计算可以类似于小鼠研究。例如,药物 A 可能将炎症性肠病患者的粪便钙卫蛋白这一炎症标志物降低 170 mcg/g(标准差 150 mcg/g),而安慰剂组为 90 mcg/g(标准差 100 mcg/g)。在一个小型的初步研究中,效应大小为 0.63,I 型错误为 0.05,功效为 95%,分配比率为 1:1,这将需要每组 67 名受试者(或在考虑 10% 的损耗后为 75 名受试者)来进行更大规模的随机对照试验。然而,如果没有进行初步研究,计算人类研究的效应大小可能会很困难。在这些情况下,可以按照 Cohen 和 Sawilowsky 的建议 1, 2 估计效应大小为小 ()、中 () 或大 ()。这也凸显了人类研究中的效应大小通常要小得多,而样本量通常比动物研究大得多(动物研究中效应大小的目标通常 ,见上文)。
然而,在计算人类研究的样本量时,更常用的是比例 23, 24, 25。在一项关于利福昔明治疗肠易激综合征的人体试验中,样本量是使用两个独立比例之间的差异来计算的 23。据先验估计,利福昔明组的改善率为 55%,安慰剂组为 40%,在 95% 的功效和 0.05 的显著性水平下,每组需要约 300 名受试者 23,或者更准确地说,根据 z 检验,每组需要 286 名受试者(图 2A),加上 16 或 32 名受试者,以校正 5% 或 10% 的损耗(分别为 286/0.95 = 301.05 或 286/0.9 = 317.78)。人类研究中的效应大小和提议的样本量可能是任意的 26。然而,如上所述,建议基于研究相同药物的较小初步研究,或在相同临床背景下审查相似药物或在略有不同的临床背景下审查相同药物的较大随机对照试验的估计。例如,一项人类研究检查了右美托咪定对主动脉手术后急性肾损伤的影响 25,其估计的术后急性肾损伤发生率为 54%,这是基于先前的一项研究 27,并估计右美托咪定输注会将术后急性肾损伤的发生率降低一半至 27%,这与一项关于瓣膜性心脏手术后急性肾损伤的研究相似 28。这些比例在 80% 的统计功效和 0.05 的 I 型错误下,提供了每组 51 名受试者的样本量(图 2B),或在校正 5% 的损耗后每组 54 名受试者 25。
结论
总之,出于伦理考虑、降低成本、时间、精力和使用其他资源等多种原因,在设计动物或人类研究时,适当计算所需样本量至关重要。
作者贡献
XZ 和 PH 构思和设计了这项研究,进行了统计分析,撰写了手稿的初稿并进行了编辑。所有作者都批准了提交的版本。
资金
本研究得到了美国国立卫生研究院 (NIH) 基金 K12 HD85036、加州大学圣地亚哥分校奥特曼临床与转化研究所 (ACTRI)/NIH 基金 KL2TR001444、美国肝病研究协会基金会颁发的肝病巅峰研究奖 #PNC22-159963,以及圣地亚哥消化疾病研究中心 (SDDRC) 的初步/可行性基金 P30 DK120515 (授予 PH) 的支持。
利益冲突
作者声明,该研究是在没有任何可能被解释为潜在利益冲突的商业或财务关系的情况下进行的。
出版商说明
本文中表达的所有主张仅为作者的主张,不一定代表其附属组织或出版商、编辑和审稿人的主张。本文中可能评估的任何产品,或其制造商可能提出的任何主张,均不受出版商的保证或认可。
补充材料
本文的补充材料可在线获取:https://www.frontiersin.org/articles/10.3389/fmed.2023.1215927/full#supplementary-material
缩写
α,I 型错误;β,II 型错误;d,效应大小;SD,标准差。
参考文献
-
Cohen J. Statistical power analysis for the behavioral sciences. Academic press. (2013). doi: 10.4324/9780203771587 ↩︎ ↩︎ ↩︎ ↩︎
-
Sawilowsky SS. New effect size rules of thumb. J Modern App Stat Methods. (2009) 8:26. doi: 10.22237/jmasm/1257035100 ↩︎ ↩︎
-
Hey SP, Kimmelman J. The questionable use of unequal allocation in confirmatory trials. Neurology. (2014) 82:77–9. doi: 10.1212/01.wnl.0000438226.10353.1c ↩︎ ↩︎
-
Vozdolska R, Sano M, Aisen P, Edland SD. The net effect of alternative allocation ratios on recruitment time and trial cost. Clin Trials. (2009) 6:126–32. doi: 10.1177/1740774509103485 ↩︎
-
Steiger JH. Beyond the F test: Effect size confidence intervals and tests of close fit in the analysis of variance and contrast analysis. Psychol Methods. (2004) 9:164. doi: 10.1037/1082-989X.9.2.164 ↩︎
-
Faul F, Erdfelder E, Buchner A, Lang AG. Statistical power analyses using G* Power 31: tests for correlation and regression analyses. Behav Res Methods. (2009) 41:1149–60. doi: 10.3758/BRM.41.4.1149 ↩︎ ↩︎ ↩︎
-
R Core Team R. R: A language and environment for statistical computing. Vienna, Austria. (2023). Available online at: https://www.R-project.org/ (accessed May 1, 2023). ↩︎ ↩︎
-
Ausvet. Epitools. (2023). Available online at: https://epitools.ausvet.com.au/samplesize (accessed May 1, 2023). ↩︎
-
Dean AG,. OpenEpi: Open Source Epidemiologic Statistics for Public Health, Version 2.3. 1. (2010). Available online at: http://www.openepi.com (accessed May 1, 2023). ↩︎
-
Center for Biomathematics, Biomath,. (2023). Available online at: http://www.biomath.info/power/index.html (accessed May 1, 2023). ↩︎
-
Hartmann P, Duan Y, Miyamoto Y, Demir M, Lang S, Hasa E, et al. Colesevelam ameliorates non-alcoholic steatohepatitis and obesity in mice. Hepatol Int. (2022) 16:359–70. doi: 10.1007/s12072-022-10296-w ↩︎ ↩︎
-
Wang L, Hartmann P, Haimerl M, Bathena SP, Sjöwall C, Almer S, et al. Nod2 deficiency protects mice from cholestatic liver disease by increasing renal excretion of bile acids. J Hepatol. (2014) 60:1259–67. doi: 10.1016/j.jhep.2014.02.012 ↩︎
-
Nishio T, Koyama Y, Liu X, Rosenthal SB, Yamamoto G, Fuji H, et al. Immunotherapy-based targeting of MSLN+ activated portal fibroblasts is a strategy for treatment of cholestatic liver fibrosis. Proc Nat Acad Sci. (2021) 118:e2101270118. doi: 10.1073/pnas.2101270118 ↩︎ ↩︎
-
Zeng S, Hartmann P, Park M, Duan Y, Lang S, Llorente C, et al. Malassezia restricta promotes alcohol-induced liver injury. Hepatol Commun. (2023) 7:2. doi: 10.1097/HC9.0000000000000029 ↩︎
-
Tsuchida T, Lee YA, Fujiwara N, Ybanez M, Allen B, Martins S, et al. A simple diet-and chemical-induced murine NASH model with rapid progression of steatohepatitis, fibrosis and liver cancer. J Hepatol. (2018) 69:385–95. doi: 10.1016/j.jhep.2018.03.011 ↩︎
-
Kang SS, Bloom SM, Norian LA, Geske MJ, Flavell RA, Stappenbeck TS, et al. An antibiotic-responsive mouse model of fulminant ulcerative colitis. PLoS Med. (2008) 5:e41. doi: 10.1371/journal.pmed.0050041 ↩︎
-
Hartmann P, Seebauer CT, Mazagova M, Horvath A, Wang L, Llorente C, et al. Deficiency of intestinal mucin-2 protects mice from diet-induced fatty liver disease and obesity. Am J Physiol Gastroint Liver Physiol. (2016) 310:G310–22. doi: 10.1152/ajpgi.00094.2015 ↩︎ ↩︎
-
Lee HY, Yoon S, Lee JH, Park K, Jung Y, Cho I, et al. Aryloxypropanolamine targets amyloid aggregates and reverses Alzheimer-like phenotypes in Alzheimer mouse models. Alzheimer's Res Therapy. (2022) 14:177. doi: 10.1186/s13195-022-01112-6 ↩︎ ↩︎
-
Morris JL, Bridson TL, Alim MA, Rush CM, Rudd DM, Govan BL, et al. Development of a diet-induced murine model of diabetes featuring cardinal metabolic and pathophysiological abnormalities of type 2 diabetes. Biol Open. (2016) 5:1149–62. doi: 10.1242/bio.016790 ↩︎
-
Demir M, Lang S, Hartmann P, Duan Y, Martin A, Miyamoto Y, et al. The fecal mycobiome in non-alcoholic fatty liver disease. J Hepatol. (2022) 76:788–99. doi: 10.1016/j.jhep.2021.11.029 ↩︎
-
Renes IB, Verburg M, Van Nispen DJ, Büller HA, Dekker J, Einerhand AW. Distinct epithelial responses in experimental colitis: implications for ion uptake and mucosal protection. Am J Physiol Gastroint Liver Physiol. (2002) 283:G169–79. doi: 10.1152/ajpgi.00506.2001 ↩︎
-
Kazdoba TM, Leach PT, Yang M, Silverman JL, Solomon M, Crawley JN. Translational Mouse Models of Autism: Advancing Toward Pharmacological Therapeutics. Cham: Springer International Publishing (2016). doi: 10.1007/7854_2015_5003 ↩︎
-
Pimentel M, Lembo A, Chey WD, Zakko S, Ringel Y, Yu J, et al. Rifaximin therapy for patients with irritable bowel syndrome without constipation. New Eng J Med. (2011) 364:22–32. doi: 10.1056/NEJMoa1004409 ↩︎ ↩︎ ↩︎
-
Makrides M, Gibson RA, McPhee AJ, Yelland L, Quinlivan J, Ryan P. DOMInO investigative team AT. Effect of DHA supplementation during pregnancy on maternal depression and neurodevelopment of young children: a randomized controlled trial. Jama. (2010) 304:1675–83. doi: 10.1001/jama.2010.1507 ↩︎
-
Soh S, Shim JK, Song JW, Bae JC, Kwak YL. Effect of dexmedetomidine on acute kidney injury after aortic surgery: a single-centre, placebo-controlled, randomised controlled trial. Br J Anaesth. (2020) 124:386–94. doi: 10.1016/j.bja.2019.12.036 ↩︎ ↩︎ ↩︎
-
Bacchetti P. Current sample size conventions: flaws, harms, and alternatives. BMC Med. (2010) 8:1–7. doi: 10.1186/1741-7015-8-17 ↩︎
-
Roh GU, Lee JW, Nam SB, Lee J, Choi JR, Shim YH. Incidence and risk factors of acute kidney injury after thoracic aortic surgery for acute dissection. Ann Thorac Surg. (2012) 94:766–71. doi: 10.1016/j.athoracsur.2012.04.057 ↩︎
-
Cho JS, Shim JK, Soh S, Kim MK, Kwak YL. Perioperative dexmedetomidine reduces the incidence and severity of acute kidney injury following valvular heart surgery. Kidney Int. (2016) 89:693–700. doi: 10.1038/ki.2015.306 ↩︎