这种情况下,一个更可靠的效应量是曲线下面积(AUC)2,3,或T1组患者比T2组患者活的更长的概率,这两名患者是从人群中抽样出来的。如果生存期更长的患者标记为一个成功另外一个标记为失败,那要抽样出多少个配对才能使T1组比T2组多一个成功案例呢?这就是需要治疗的病人数目(NNT;相当于1/[2AUC-1])。2,4NNT级别越低,某种治疗措施比另一种更好。AUC或NNT不仅反映个体的效应,而且他们不像HR,不需要限定的假设,可以不管结局指标而从任何RCT中估算出来。
那HR和NNT有什么相关性呢?一般来说,没有。AUC是通过对比每个RCT中每一名患者的生存情况获得的,然而P值是通过对比RCT之间的效应量获得的。据本例子所报道,21个配对比较中有10个缺失,这时P值大小更多的受纳入研究的总数目及样本量影响而不是效应量。
假如对所有研究人群给予同一种治疗措施那还应该以将7种治疗措施排序为最终目标吗?我们希望我们的医师能给我们提供最合适的治疗措施。因此,理想情况下,从7种治疗措施中挑选出对人群中的每一个体最合适的方案才是最重要的目标。
我们用以下简单的例子说明这些目标之间的区别。假设一个群体中,男女各占一半,T1对男性100%有效而对女性毫无效果,T2则完全相反。T3对男女疗效均为50%。MTM的结论应该是三种措施等效,即三者有效率均为50%。但显然,对于男性,疗效排序是T1,T3,T2,而女性则是T2,T3,T1。如果给予个别患者优选方案(男性T1,女性T2)则疗效会是100%;如果给予所有患者任何一种治疗措施,疗效则减半。这种情况下,性别弱化了任何两治疗措施对比RCT中的疗效。5发现疗效的弱化因素是个体化或精准医疗的基础。6,7
对本例子中个别RCT进行弱化因子分析可能会发现7个不同的亚组人群,7种治疗措施分别对应不同亚组会是最合适的方案。虽然最适合CRT-AC的亚群也许是这类中样本量最大的,但将CRT-AC应用于所有患者也许对于大部分患者来说仍是错误的决策。这里暗示一种假设,某人群的最佳治疗措施也适用于该人群中的所有个体。
作为一个统计学家,我是带着膜拜的心情来阅读MTM方面的统计学文献的:理解虽困难但有趣,假设表达清晰,数学推导很完美。然而,将如此高大上的统计方法运用到临床科研的话,研究人员要确保统计符合这么重要的数学假设很有压力。此讨论部分中,我仅指出了此研究中可能对其结论引起质疑的众多假设中的一部分。如其中一篇引用文献中所总结的:“MTM的方法学仍是统计学专家们的研究范畴, MTM结果的解读同样是个挑战。”8(p169)Ribassin-Majed等人1的结论是否正确呢?这个很难给出肯定答案,因为数据并没有明确地支撑它的结论。在解决所有复杂问题之前将如此复杂的统计学方法应用于临床研究中是种危险。