摘要
放射性肺炎(radiation pneumonitis, RP)是局部晚期非小细胞肺癌(LA-NSCLC)放疗中限制剂量的主要毒性,过往研究提出了相关剂量学约束来对此毒性加以限制。本研究利用机器学习算法,对诱发 RP 产生的特征因素进行了分析,以发现过往未识别的指标,并阐明各特征的相对重要性。
本研究利用随机森林(Random Forest)机器学习方法,对 203 名 LA-NSCLC 患者的临床数据进行分析。结果表明其对于识别诱发 RP 的相关特征方面表现精准。此外,该分析确认了肺部 V20,Dmean 和吸烟史均为预测 RP 的重要特征,同时引入了一个新的特征,即食管 Dmax。
1. 引言
放射性肺炎(RP)是一种常见的、会潜在地限制剂量的、与胸腔照射有关的、具有临床意义的毒性。而同步化疗应用的增加会使这种毒性变得更为重要。据报道,局部晚期非小细胞肺癌(LA-NSCLC)患者接受根治性放化疗的 RP 发生率为 15-40%,相关干预措施包括类固醇和氧气支持。这种毒性会限值放疗剂量,对临床效果产生负面影响。因此,减轻毒性的手段至关重要。
过往在确定 RP 预测因素方面的研究表明,化疗的使用、药物种类、放疗剂量分次、肿瘤位置、年龄以及与肺部甚至心脏有关的剂量/体积参数都很重要。然而,目前对剂量学指标的最佳阈值和截止点,以及各预测因素的相对重要性还缺乏共识。曾有少数研究视图生成预测模型,但成功率和临床效用各异,并受到患者群体和治疗技术异质性等问题的影响。
本研究旨在利用机器学习方法对现有的 RP 预测因素进行补充。研究包含本机构接受治疗的 203 名连续 LA-NSCLC 患者的队列,使用了现代治疗计划和技术。通过分析临床和结构化数据的方法, 结合机器学习算法,我们能够确定预测 RP 发展的重要特征和最佳阈值。本研究证明了机器学习在 RP 预测建模方面的潜在力量和适用性,并描述了在临床实践中考虑临床标准的优先次序。
2. 材料 & 方法
2.1 患者队列
共包含 203 名连续的 II-III 期 LA-NSCLC 患者,在 2008 至 2016 年期间在本机构接受治疗。放疗方式为光子调强放疗(IMRT)或质子放疗(PBT)。根据不良事件通用术语标准 v4.0 对 RP 进行分级。
2.2 特征定义
此研究中分析了 32 个连续和分类的潜在特征/因素。
连续特征是每年吸烟包数(pack-year)、身体质量指数(BMI)和年龄、原发肿瘤大小、PFT 支气管扩张前、PFT DLCO(% predicted)、FEV1(L)、放疗总剂量(total dose)、分次剂量、分次数(nr. fractions)、平均心脏剂量(heart mean)、心脏 V5、心脏 V30、心脏 V50、心脏 V60、平均肺剂量(lung mean)、肺 V5、肺 V10、肺 V20、平均食道剂量(eso mean)和最大食道剂量(eso max)。
分类特征是种族、治疗前 ECOG、放疗后 3 个月 ECOG、AJCC 分期、T 期、N 期、放疗方式(光子或质子)、同步化疗与连续化疗、化疗药物、肿瘤分期和性别。
所有剂量计算都带有异质性校正,使用 Varian 的 AAA 算法(光子)或 PCS 算法(质子)。
2.3 单变量分析
使用经过优化训练的决策树来研究每个特征对预测 RP 的独立影响;决策树只有一个内部节点直接连接到终端,称为决策树桩。对于连续特征,缺失值用平均数代替;对于分类特征,缺失值用所用模式代替。
此外,特征矢量还增加了二元特征;如果有缺失值则为 true,否则为 false;如此将特征矢量长度从 32 个增加到 60 个。与调节树桩的各个特征的分类性能相关的 p 值基于样本计算。此外,还计算了每个特征的样本内部敏感性和特异性,以及各特征间的 Pearson 相关性系数。
2.4 多变量分析
为了评估多个特征的综合预测能力,我们使用了随机森林算法——这是一种基于决策树的复合分类和回归的集合算法(即将许多棵决策树整合成森林,并合起来用来预测最终结果;优点大概是可以减少单个特征决策树的缺陷,减少局限性)。建立随机森林模型的超参数是最大树深,是一个整数,定义了从根部到终端节点的最长路径中分支节点的最大数量。一旦定义了最大树深,观察结果以及分类标签就会被送入随机森林算法,以产生决策树的集合。
考虑到患者队列规模有限和分类数量的不平衡,这里通过 5 重交叉验证进行再取样,使用整个数据集进行超参数调整,并评估随机森林集合的预测性能(细节见补充材料,此略)。图 1 所示工作流程中的交叉验证阶段是单独进行的,但使用的是同一队列的 203 名患者。
超参数优化采用 5 折交叉验证,每个算法20次,以最大限度地提高每个折的验证组的平衡精度(balanced accuracy, BACC),从而提供每个模型的 NDS = 20 个优化实例。在调整了超参数后,所有分类器的所有优化模型实例的 BACC 被计算出来,在相同的数据上进行 5 折交叉验证,次数为 NPT = 100 次;数据分区随机选择,但分层。然后,选择单个表现最好的模型实例的超参数,通过 5 折交叉验证的 NAV = 100 次测试,估计每个折叠的验证组的平均预测性能,并计算平均性能指标,特别是 BACC、接收者操作特征(Receiver Operating Characteristic, ROC)、ROC 曲线下面积(Area Under the ROC Curve, AUC),以及其各自的置信区间(95% 置信)和相对重要性。
此外,还评估了医疗应用中使用的其他基于决策树的算法,即 CART 和 RUSBoost 的分类性能。此外,Logistic 回归和线性支持向量机(Support Vector Machines, SVM)也被应用来进一步比较性能。每个分类器的超参数被调整为使用广义模式搜索(Generalized Pattern Search, GPS)算法最大化 BACC。
在这项分析中,我们使用单变量分析自动选择的特征训练了 10 个随机森林组合,每个组合有 500 棵树(共 5000 棵树),显著性水平为 0.05,用 Holm-Bonferroni 校正进行多重比较分析。随后,计算了合集中树的根部和第一层特征的选择频率以确定其重要性。用于分割节点的截止阈值的范围被选择为在所有分割候选者中获得最大的不纯收益。所有分析都在 Matlab R2017b 中实现。
3. 结果
3.1 患者特征
研究中 203 名患者的特征见表 1,表 2。患者队列中,36 名患者(17.7%)出现了 ≥ 2 级的 RP。中位随访时间为 22.6 个月(范围为 1-88 个月),中位生存期(OS)为 23.5个月,1 年 OS 为 75.0%,2 年 OS 为 49.0%,5 年 OS 为 12.0%。放疗主要采用光子(89.7%),少数质子(10.3%)。
3.2 单变量分析
单变量分析显示,肺部 V20>27.4%(p = 0.001 ),肺部平均剂量>15.4 Gy(p = 0.004),肺部 V10>36.3%(p = 0.001),肺部 V5>43.6%(p = 0.002)都可以持续预测 RP 的存在。此外,在所有确定的重要特征列表中,这些特征代表了敏感性和特异性的最平衡得分(≥ 0.5)(表 3)。此外,这四个特征也被发现有高显著相关性(r > 0.88,p < 0.01)(图 2)。
在应用 Holm-Bonferroni 校正显著性水平 0.05 的多重比较分析后,单变量分析的其他重要特征有 eso max、pack-year、nr. fractions、总剂量和心脏平均剂量(表 3)。心脏 V50、年龄、心脏 V60、心脏 V5、心脏 V30、原发肿瘤大小和分期没有统计显著性。此外,同一危及器官(如心脏、肺和食道)的剂量参数相互之间有很强的正相关,与相邻解剖器官(如肺-心、肺-食道)也有较弱的正相关(图 2)。
3.3 多变量分析
发现最大树深为 2 是随机森林的最佳超参数。表 S1 中显示了为该分类任务测试的其余分类器的最佳超参数。表 S2 总结了性能相似的模型实例。表 S3 总结了使用 AUC 的预测能力,以及所有分类的相关 p 值和最佳 BACC。
这些数据表明,随机森林和 RUSBoost 树群显示出比单棵树更高的性能。随机森林(AUC=0.66,p<0.01)、RUSBoost(AUC=0.63,p=0.03)和 CART(AUC=0.63,p<0.01)存在显著分类能力,比最好的单一预测特征 Lung V20(AUC=0.61,p<0.04)的交叉验证性能还要有显著改善(表 S4)。
Logistic 回归表现出比随机森林更低的性能(AUC = 0.64,p<0.01 ),其 BACC=0.54 是所有分类器中最低的(表S3)。线性SVM(AUC=0.65,p<0.01)也显示出比随机森林略低的性能;然而,一般的 SVM 不允许分析特征之间的相互作用,并使估计截止点复杂化——这也是本研究主要解决的问题。
图 3 显示了在随机森林组合的前两级中最常选择的特征(选择频率>10%)以及用于分割节点的平均最佳截止阈值及其各自的标准差。Eso max是用于分离 RP 事件的最常被选择的根特征(20.5%),其次是肺 V20(16.4%)、肺平均剂量(15.7%)和每年吸烟包数(14.9%)。在第二层树上,为分离出 RP 事件而选择的最常见的左子特征(即低于根特征阈值的特征)是总剂量(15.0%),其次是每年吸烟包数(14.9%)和肺 V5(14.4%)。而右子特征是总剂量(15.3%)、肺部 V20(14.1%)和 eso max(13.0%)。
4. 讨论
由于 RP 相关的高发病率和潜在的死亡率,很多研究致力于探索预测变量,以指导临床减轻毒性。各研究使用的方法多样,包括小型的单机构回顾性多变量分析、系统回顾性分析、国际综合分析和贝叶斯神经网络分析。尽管这些研究中提出的一些指标已被用于临床实践,但由于这些研究是在前 IMRT(和前质子放疗)时代进行的,所以很多情况下普遍性较差。此外,在各因素之间的相对重要性方面存在相互矛盾的数据。
本工作首先针对 IMRT/质子放疗以相对统一的方式分析了大量患者,对 RP 问题进行了现代的评估。其次,我们强调了机器学习方法的力量,即同时评估多个变量,以发现对 RP 存在潜在重要性的因素,并提供优化相关因素的参考。
过往研究已经确定了肺部剂量参数对于 RP 的重要性,包括肺部平均剂量 和 V20,以及化疗所用药物。本研究的患者绝大多数都接受了同步化疗,这使我们能够在接受现代治疗方案的患者群体中确定 RP 的预测因素。此种情况下,我们的发现与现有文献一致,证实了肺部 V20 的重要性(图 3),因为发现它是随机森林法第二大最常选择的树根(16.4%);以及肺部平均剂量(15.7%)。由于 BMI 可能影响肺部总体积,因此对肺部 V20 的解释可能存在偏差;然而,在我们的队列中,96% 的患者的 BMI ≤ 37,这使我们的结果的准确性得到了保证。
此外,我们通过强调 eso max 的潜在重要性扩展了现有的认识,因为它是最常见的树根随机森林特征(20.5%),这在现有文献中还没有被很好地确立为一个剂量学特征来考虑。Eso max 虽然是一个重要的预测因素,但它与 RP 不是直接的因果关系;它反映了周围肺部疾病的分布和体积,最终将反映在肺部剂量学结果中。这在图 2 中得到证明,食道剂量学指数与肺部剂量学指数呈正相关。
本研究的单变量分析中发现,年龄的增加可以预测 RP 的风险,这与以前的报告一致。我们的单变量特征选择证实了诊断时的年龄越大,在较高的年龄分界点上对 RP 的敏感性越高,是一个重要的特征(表 3)。
鉴于随机森林相对于其他测试的分类器(分类工具)具有较高的 AUC,并且能够提供可由医生临床解释的相对重要性和截止阈值,因此随机森林法为本文的主要分析方法。此外,鉴于在选择集合中的每棵树的特征子集时产生的随机性,随机森林对多重共线性效应具有内禀稳定性;但这同时牺牲了 CART 和 MediBoost 等精度较低的算法所提供的可解释性。此外,随机森林具有识别连续变量(如剂量参数)的截止阈值的重要能力。这些信息可以为临床医生提供了指导,使其在计划评估中接受剂量学的截止点,以便增加缓解 RP 发展的可能。
为了尽量减少对现有算法的不当利用,我们测试并验证了几种多变量分析技术(RUSBoost、随机森林、CART、逻辑回归和线性 SVM)以确认和验证我们的结果(补充材料 S3 节)。为了改善对超参数空间的探索,相对于网格搜索,每个分类器的超参数被调整为使用 GPS 算法来最大化 BACC。通过严格使用随机子抽样、决策树建模和多次排列组合,我们证明了随机森林工具的稳健性,并利用它来识别 RP 预测特征。
目前虽然即使是成熟的模型在人群之间应用也存在普遍缺陷,但交叉验证的机器学习方法已经成功推广到 RTOG 的独立数据。因此,考虑到本研究队列的规模有限,且分类不平衡,我们实施了 5 折交叉验证,以进行超参数调整并评估随机森林组合的预测性能。
本研究的局限性在于来自单一机构的患者队列规模不大,这反映在预测特征的低敏感性和特异性上。同时注意到,尽管随机森林可用于预测多种结果,但我们的模型预测的是 RP ≥ 2 级的存在与否,而不是 RP 分级,因为目前队列中 RP 分级多样性较差。
未来的分析将着眼于在更大的队列中使用临床数据和 PET/CT 放射学特征来预测 LA-NSCLC 放疗的治疗反应,以及使用树状组合对特征的详细组合进行分析。值得一提的是,本报告中分析的患者代表了一个非常有特征的、高度详细的同质化治疗患者的数据集。因此,我们投入了大量精力来进行严格分析,以尽量减少结果中的统计偏差的风险,从而获得可靠和结论性的结果。我们的长期目标是制作一个工具,协助临床来最大限度地减少 LA-NSCLC 的放射诱发毒性来实现放疗个性化。
这项研究优势在于应用了基于准确的决策树组合(随机森林)的机器学习分析,通过同时分析多个异质的患者和肿瘤相关的变量和剂量学因素,来预测与 RP 发展有关的特征因素。我们强调了肺部 V20、肺部平均剂量、食管最大剂量、每年吸烟包数、肺部 V5 和总剂量的重要性,还确定了其他剂量学和临床特征的相对重要性和潜在截止点。确认以前通过不同方法获得的结果是可靠地扩展本研究的机器学习方法实现的关键步骤,这些机器学习有严格的数学原理支持,可用于有关预测放射性肺炎的更复杂的分析。这些指标可以为临床医生评估接受同步化疗的 LA-NSCLC 患者的治疗方案提供指导,并突出机器学习技术在未来研究中的力量。