从失败的临床试验中挖掘价值-临床试验120

临床试验作为一项重要的医学研究手段，旨在评估新药的安全性和疗效。但是，由于复杂的生物学系统和人体生理学变异，每一项临床试验都存在失败的可能。

临床试验是新药研发过程中不可或缺的一环，但是在实践中，也有很多试验结果并不如人意。然而，即使试验失败，也并非完全毫无价值。本文将探讨试验失败后的价值

特别是Ⅲ期注册临床试验，涉及大量受试者，耗时可能长达数年甚至十数年，花费的成本更是数以亿计；

对临床试验，各方都会期望一个成功的结果，但现实是，每年都会有成百上千起结果为阴性的临床试验，国际大药企亦不可避免。

反过来考虑，这也不一定是一件坏事，设想如果不存在失败的临床试验，那么意味着行业的标准极有可能出了问题，成功的临床试验也就失去了意义；

并且，由于新药研发中的种种未知因素，即便一项设计得尽善尽美的临床试验，也依然有失败的可能。我们应当以科学的态度看待临床试验的失败。

那么面对临床试验的失败，下一步该怎么走？2016年，发表在《新英格兰医学杂志》（NEJM）上的一篇综述以12个问题展开阐述，为我们指明思考的方向。问题如下：

是否有迹象表明潜在获益？
试验的统计学功效是否不足？
主要结局是否合适（或其定义是否准确）？
人群是否合适？
治疗方案是否合适？
试验实施过程是否有缺陷？
宣称非劣效性是否有意义？
亚组结果是否显示阳性信号？
次要结局是否获得阳性结果？
备选分析方法是否有帮助？
是否有更多的阳性外部证据？
是否有支持该疗法的强有力生物学原理？

大体上，以上这些问题可以分为两类，一类问题重点关注如何深挖试验数据价值，另一类重点关注对临床试验设计的指导价值。

一、深挖试验数据价值

Q1：是否有迹象表明潜在获益？试验的统计学功效是否不足？

虽然统计检验给出P大于0.05的阴性结果，但还能否从结果中发现潜在的获益“信号”呢？以帕博利珠单抗联合仑伐替尼（可乐组合）一线治疗晚期肝癌的Ⅲ期LEAP-002研究为例，其结果显示，可乐组合的mOS为21.2个月，而对照组为19.0个月，主要终点OS未达到预设的统计学差异（HR=0.840，95% CI 0.708-0.997，P=0.0227；预设为p＜0.0185）。这里，虽然统计检验没有成功，但可乐组合相对安慰剂的HR有0.84，且统计检验P值比预设的阈值大一点，依然提示可乐组合有潜在获益的可能，有进一步研究的价值。

至于统计学功效不足，往往指研究设计的样本量偏小；同样以LEAP-002研究为例，似乎如果扩大一些样本，数据趋势不变的话，可以得到阳性结果。实际上，LEAP-002原设计的样本量是充足的，因为原假设建立在可乐组合对安慰剂的HR=0.8的基础上，但实际的HR=0.84，如果试验以HR=0.84来设计，其样本会比现在大得多；所以，其实是对核心参数的估计不准确，导致结果看起来是样本量偏小了。值得注意的是，之所以这个问题成立，是因为HR=0.84或0.8都是可获益的值，举一个反例，若这里HR实际不是0.84，而是0.95，反而不存在此问题。

Q2：宣称非劣效性是否有意义？

Ⅲ期试验一般是优效检验，在数据不支持优效成立的情况下，可以考虑试验组相对对照组的非劣效是否有价值，同时考察当前的数据是否能支持非劣效检验的成功。但是，若采用非劣效设计，则需在试验设计之初明确，行业一般不会接受试验完成之后修改为非劣效设计；并且，在非劣效设计和优效设计并行的研究中，是首先检验非劣效，成功之后再检验优效。因而，从非劣效的角度考虑，不是为了改变研究阴性的结果，更多是为了发掘是否有非劣效的可能性。

Q3：亚组结果是否显示阳性信号？次要结局是否获得阳性结果？备选分析方法是否有帮助？

不论是亚组分析、次要终点，还是其他分析方法；都是从各个角度尽量发掘当前试验数据提供的潜在获益信号。

以依维莫司联合内分泌治疗高危HR阳性乳腺癌的UNIRAD研究为例，其主要终点，依维莫司组和安慰剂组的3年DFS率未见显著差别（88% vs 89%，HR 0.95，95%CI 0.69-1.32，P=0.77）。在亚组分析中，他莫昔芬或芳香化酶抑制剂作为辅助治疗对于结果似乎有一定影响，他莫昔芬组的依维莫司获益似乎更显著。这里亚组分析的结果提示辅助治疗的不同似乎存在影响。

再以新辅助化疗加用阿替利珠单抗治疗三阴性乳腺癌患者的NeoTRIPaPDL1研究为例，目前未公布EFS结果，对pCR的分析结果发现：联合阿替利珠单抗组未能显著提升pCR（48.6% vs 44.4%，OR 1.18，95%CI 0.74-1.89，P = 0.48）。多因素分析结果：PD-L1阳性患者的pCR率更高（OR 2.08，95%CI 1.64-2.65，P ＜ 0.0001），而治疗方案（是否联用阿替利珠单抗）和疾病程度（早期高危或局部进展）与pCR率之间的相关性较低。

需要注意的是，不论是亚组分析、次要结局还是备选分析方法的结果，若要作为证据得到结论，需提前计划，作为主要终点的主要分析之一；对于次要结局分析或事后分析，不论结果如何，可以作为潜在的信号，但不能作为证据。无论如何，这些分析对开展下一步研究的方向，提供了参考的依据；从另一个角度讲，在研究设计之初也应将亚组、次要结局等的价值和影响纳入考虑。

二、指导临床试验设计

考虑失败的临床试验对临床试验设计的价值，当然包括对本试验设计的反思，但更多的是对未来试验或同类临床试验的借鉴和提示。结合临床试验统计学指导原则增补（E9R1）的框架，当设计临床试验时，首先是明确研究待解决的问题，之后是确定研究的目的，再根据研究目的确定临床试验的估计目标，而估计目标有五大要素：人群、治疗、变量、群体层面汇总和伴发事件。结合E9R1的框架和下面的问题包含的思想是相通的。

Q1：主要结局是否合适（或其定义是否准确）？

即研究的主要终点与研究的目的是否一致，进而若研究有理想的结果，其是否能解决相应的问题。以肿瘤研究的疾病进展终点为例，我们常见到的有PFS、DFS、EFS等，他们在定义上不同，必须结合治疗领域与试验目的确定合适的终点；有时还会与总生存OS一起作为双主要终点，做出这样的选择同样要与试验目的相符。以Paxlovid用于COVID-19暴露后预防使用的几项研究为例，人群为通过家庭接触的成年人确诊和有症状的COVID-19感染成人的EPIC-PEP研究，其结果未显著降低感染风险（主要终点）；标准风险人群的EPIC-SR研究，其未达到所有症状4天持续缓解的主要终点；而人群为非住院、具有发展成重症疾病的高风险成人的EPIC-HR研究，其期中分析结果显示，Paxlovid显著降低了住院或因任何原因的死亡风险89%（主要终点）。三项研究根据目的的不同，采用了不同的主要终点；主要终点的选择对试验结局的影响十分重大，回过头来看，前两项研究是否有更合适的终点？

Q2：人群是否合适？治疗方案是否合适？试验实施过程是否有缺陷？

即人群是否是试验治疗的精确目标人群，因为人群、治疗方案都会对试验治疗的效果产生重大的影响，故这两方面也必须精确的定义。同样以上面提到的Paxlovid用于COVID-19三项研究为例，三项研究的人群分别为低暴露风险人群，标准风险人群和高危人群；从结果看，高危人群中试验治疗相对对照的疗效更容易突显；前两项研究的失败是否和人群的风险较低，不易突显试验治疗疗效有关？

对于试验实施过程中的缺陷，可以分为两类：

一是不可避免的，或者可预见的会对试验治疗产生影响的事件，用E9R1的框架描述为伴发事件，比如受试者因不良事件出组，受试者因疗效不佳停止治疗等，这部分严格来说不能算作缺陷；对于伴发事件应当明确定义并提前计划相应的处理策略；从失败的临床试验中，能总结出一系列伴发事件，对未来设计同类研究十分有价值。

二是字面意义上的实施缺陷，比如数据的丢失，样本的污染等，这些问题通过投入资源，精细流程，提高关注是可以尽量避免的；从失败的临床试验中，也可以总结此部分内容，未来提高临床试验实施的质量。

Q3：是否有更多的阳性外部证据？

一个Ⅲ期临床试验的设计，是建立在一系列Ⅰ、Ⅱ期等探索性试验的基础上，其关键参数的确定，往往也参考了同类研究的文献报道；这些证据的级别和可信程度也是各不相同，一般来说，Ⅲ期注册研究的荟萃分析的证据级别最高，而单臂回顾性研究的证据级别在最低的一档。面对一个失败的临床试验，我们也需要考察其设计之初所依据的证据，其可信度如何，是否有新的外部证据，以重新确定研究的关键数据。还是以LEAP-002研究为例，其根据既往的证据，确定关键参数HR为0.8，并完成设计；但试验数据得到HR=0.84；那么若再设计同类研究，关键参数该如何选择也是一个问题。

Q4：是否有支持该疗法的强有力生物学原理？

药物的研发都有对应的临床前动物试验和早期临床试验，对药物在体内的作用机制也会有相应的理论，但一方面，人体内的各种相互作用十分混沌复杂，事情往往不像预料的一样进行（这也是必须进行临床试验的原因之一）；另一方面，有些作用机制的原理本身也是假说，是可被质疑的。以皮下注射Aβ单抗Gantenerumab针对阿尔茨海默病和轻度阿尔茨海默病性痴呆症导致认知障碍(MCI)的Ⅲ期GRADUATE研究为例，其结果未达到改善认知损伤的临床主要终点，且该药物在清除β-淀粉样蛋白（Aβ）的水平方面也低于预期。再结合近年来一系列同类药物的临床试验失败，也引起了学界对β淀粉样蛋白假说的质疑。

临床试验的失败并不意味着该临床试验数据毫无价值，我们应当尽可能地深入挖掘现有数据，据此指导我们判断开展进一步研究的价值，并提示进一步研究的重点及注意事项；

从另一个角度看，在临床试验设计阶段就应当广泛、详细地评估试验药物前期及同类、同领域药物已有的信息，尽量做到全面、科学、严谨地评估待解决临床问题，进行合理的试验设计。

综上所述，虽然试验失败是一件令人失望的事情，但这并不意味着试验数据就毫无价值。通过失败的试验，可以总结经验教训、优化药物配方、提高透明度、避免重复研究等等，这些都可以为未来的药物研发提供参考和指导，提高研究效率，为研究人员和患者都带来好处。

旗下微信公众号

临床试验120，A试药吧

客服微信

shiyaocf，shiyao138

从失败的临床试验中挖掘价值

导航菜单

联系我们

中国，湖南，长沙

客服微信：shiyaocf

周一至周五，09:00-17:00