影像学纹理特征是图像中图像强度的变化,是影像组学的重要组成部分。本文的目的是讨论影响纹理度量性能的一些参数,并提出建议,以指导未来影像组学研究的设计和评估。
各种纹理提取技术用于评估临床成像数据。但目前,对于方法流程(包括获取、提取或报告的变量设置导致再现性差)没有达成共识。一般来说,医学成像是以视觉或定性的方式进行评估的,图像中的许多潜在信息尚未使用。挖掘这些隐藏信息的一种方法是使用影像组学,即从影像成像中提取定量信息。尤其是,视觉评估无法充分评估成像数据的异质性。肿瘤内异质性与肿瘤侵袭性和患者预后不良相关。据报道,在评估癌症的诊断、预后和治疗反应的研究中,一些放射计量学指标,尤其是纹理分析指标,可以评估肿瘤内的异质性。
典型的影像组学评估包括纹理、形状和尺寸。该技术的基本假设是,创建肿瘤图像的灰度值以及这些值的相互关系可能能够反映肿瘤的表型、遗传和其他分子变化。
尽管人们对使用影像组学进行无创性肿瘤评估很感兴趣,但影像组学结果的标准化和泛化程度低阻碍了影像组学在临床实践中的应用。我们使用以下关键词对PubMed、Scopus和Embase数据库进行PRISMA(系统评价和meta分析的首选报告项目)搜索:radiomic或radiomics(图1)。目前没有关于工作流程、参数设置或再现性标准设定。在本文中,我们讨论了一些影响纹理度量性能的参数。我们的目标是提出一套建议,作为设计未来研究的指导方针,并帮助对其进行评估。本文发表在American Journal Of Roentgenology杂志。
图1-PRISMA——2010年1月至2018年7月发布的符合要求的影像组学研究出版物识别搜索。搜索字符串“radiomic和radiomics”用于查找PubMed、Scopus和Embase数据库中的英语出版物。使用这种搜索方法,我们在最终的研究列表中纳入了87份。
纹理分析
在材料科学中,纹理被定义为表面变化的量度;与平滑纹理材料相比,粗糙纹理材料在表面高点和低点的变化率较高。在放射学中,图像纹理是指代表ROI的灰度差异。与平滑纹理材质相比,粗糙纹理材质的图像在表面的高点和低点(灰度值)的变化率较高。
典型的影像组学工作流程包括四个模块:图像采集、图像分割、特征提取和统计分析(图2)。或者其他模块,如图像配准、数据格式化、去噪和其他模块;然而,它们是特定于模态和应用的。
图2,radiomics典型工作流程示意图,显示了四个基本模块。
A和B,72岁男性,前列腺特异性抗原水平升高。前列腺T2加权轴向MR图像(A)显示左后外周的低信号病灶区,经活检证实为前列腺癌。图像上标记了两个ROI:一个在正常组织(红色矩形,A和B)上,另一个在随后进行特征提取的肿瘤(蓝色矩形,A和B)上。
C、 A和B中显示的同一患者的特征提取图像,显示肿瘤(顶部)和正常组织(底部)ROI内的熵测量值。x轴和y轴表示分割的ROI图像的图像坐标。
D、 方块和箱型图显示了特征提取后进行的统计分析结果,以评估影像组学的性能。方框中从上到下显示的三条水平线表示三个四分位(分别为75%、50%和25%),顶部和底部的胡须分别表示最大值和最小值。方框内的加号表示平均值。
图像采集
图像采集是radiomics工作流程的第一阶段。目前可用的临床成像模态允许采集和图像重建协议有很大的不同。这对图像视觉和质量评估来说没有限制。然而,当对图像进行定量评估以提取有意义的数据时,采集和图像重建参数的变化会导致不同数据集之间的结果不一致,尤其是在多中心研究中。
图像分割
图像分割步骤涉及识别ROI,可以自动、半自动或手动完成。虽然手动分割是准确的,但它更繁琐和主观。自动分割是客观的,但容易出错,尤其是在遇到成像伪影和噪声时。一些常用的自动分割算法包括基于活动轮廓的方法、基于水平集的方法以及基于区域和图形的方法。目前没有既定的细分标准。近年来,深度学习方法,如卷积神经网络,被用在图像分割中。
纹理分析已在各个阶段被纳入影像组学工作流程。在预处理阶段,可以根据每个区域的纹理特性将图像分割为连续区域;在特征提取和分类阶段,纹理特征可以为分类或识别对象提供依据。
特征提取
统计、基于变换和基于结构的纹理评估是描述纹理的三种主要方法(表1)。纹理的统计特性基于纹理评估,作为产生ROI的灰度统计特性的度量。这些属性通常是通过一阶统计方法计算的,例如直方图分析,其中的分析仅基于灰度值,空间信息。这些一阶方法和分析相对容易实现和理解。在包括灰度值和空间方向的高阶纹理方法中,有灰度共生矩阵和灰度差异矩阵。在最近的研究中,还报告了灰度游程矩阵度量和灰度大小区域矩阵度量。基于变换的分析涉及根据频谱特性提取纹理度量,并通过识别频谱中的高能峰及其变化来描述表面灰度的全局周期性。结构化方法涉及将图像分解为基本单元并确定从这些基本单元解析图像构造的特点。纹理评估结构方法的一些示例包括分形分析。
大量影像组学度量的使用以及这些度量的不一致性及其选择性使用(可能是相关的),导致研究结果不可重现且不可比较。
统计学分析
影像组学中使用的统计方法的选择取决于多个因素(例如,是否将影像组学特征用作结果或预测因素,或者影像组学分析是否是验证性研究的一部分)。当使用影像组学特征作为结果时,首先需要测试数据正态性的假设。可以根据所用统计测试的选择以及医学数据的固有噪声和偏差引入统计偏差。一些常用的正态性统计检验包括t检验、ANOV A、Friedman检验、Kruskal-Wallis检验和Mann-Whitney检验,如果涉及多个组或多个特征,则应使用Tukey-Ornest显著差异测试或Benjamini-Hochberg等方法控制多个偏差。对于纵向数据,应使用混合效应模型。当影像组学特征被用作预测因素时,使用logistic回归分析、ROC曲线分析和Cox回归模型等方法进行统计分析。当进行影像组学特征的初步研究时,大量特征通常会超过样本量。如果进行多变量分析,经验法则是每个变量包括10-25名受试者。特征筛选方法,如最小绝对收缩和选择,有助于提高统计模型的预测精度和可解释性;然而,它们不适合小样本的试点研究,因为它是由模型拟合指数驱动的。Bujang等人提出,要从真实人群中近似模型R2,多元线性回归所需的最小样本量为300名受试者。这一数字不太可能在试点研究中实现。在这种情况下,对大量受试者进行单变量分析可能是更可取的方法。当进行大样本量的确认研究时,需要提前保留足够大的独立测试数据集。然后,根据独立测试样本的大小,必须获得至少等于测试样本大小2-4倍的学习样本。
通过使用基于方向变换的纹理度量,如Gabor滤波器,可以关联与方向相关的度量,从而导致数据冗余。可以使用无监督和有监督的特征筛选方法来减少数据冗余。无监督特征约简方法包括主成分分析、独立成分分析、零方差、近零方差以及一致性聚类与主成分分析相结合的技术。当使用有监督机器学习时,通过选择具有最佳预测值的变量(即重要变量)来实现特征选择。
许多影像组学研究包括来自不同中心的扫描。虽然这增加了队列规模,但它增加了变量数量,混淆了成像数据,导致系统性错误和可靠性差。为此,需要确定可靠的指标(即,可复制的指标[即,其值在给定成像模式的不同扫描仪上保持不变]和可重复的指标[即,在单个扫描仪上重复多次时,其值保持不变])(图3)。评估信度的两个常用统计指标包括组内相关系数(ICC)和一致性相关系数。当仅评估再现性而不重复测量给定扫描仪或模态时,ICC2(双向随机ICC)和ICC3(双向混合ICC)与一致性相关系数相同。然而,如果通过重复测量评估再现性,这相当于一次评估再现性和重复性,只有ICC3与一致性相关系数相同。通常,一致性相关系数或ICC2和ICC3是首选的评估方法,结果可以用热图表示,以说明可靠性。
图3,确定可靠的影像测量指标。低扫描间变异(可重复性指标)、低扫描内变异(稳健指标)和高重测性能(可重复性指标)的影像指标构成了可靠影像组学指标的队列
纹理分析指标的可靠性评估
许多研究人员已经研究了从CT图像得出的纹理度量的可靠性,并得出结论,影像组学特征是可以重复的。使用商用CT扫描仪和扫描协议进行的体模研究评估了扫描仪间和扫描仪内影像学指标的差异。Mackin等人表明,从Credence Cartridge Radiomics(CCR)体模的CT图像中提取的放射指标的差异性在大小上与从非小细胞肺癌的CT图像中提取的相同特征中发现的差异性相当。CT在影像组学特征测量中的扫描间可变性意味着影像组学研究的质量和重复性在很大程度上取决于图像采集和重建的一致性。在另一项使用扇形CT的研究中,Fave等人表明,只要使用一致的成像协议,选定的影像组学测量指标对扇形CT图像的噪声和图像质量具有鲁棒性。这项研究还报告了当涉及有限的呼吸相关运动时,影像组学特征测量的合理表现。Berenguer等人最近的一项研究评估了基于CT的纹理度量的可靠性,并报告称大多数影像组学特征是冗余的和不可复制的。研究人员进一步总结说,如果所有CT参数保持不变,除了FOV、管电压和管电流外,那么分析的提供的信息的影像组学特征只能总结为10个。尽管这些研究对于推进影像组学作为临床工具的可靠性评估至关重要,但它们仅限于纹理评估,而不是全面的影像组学评估。这些研究中没有显示与肿瘤行为相关的其他放射指标,如大小和形状。此外,这些可靠指标性能评估的体模研究验证是使用少于150个样本的非小细胞肺癌患者的单相非增强CT进行的,这限制了验证的范围和统计能力。
在一项肿瘤研究中,使用不同成像协议获取的肿瘤图像数据库来研究CT扫描中影像组学特征测量的重复性和稳健性。在这项研究中,Zhao等人报告说,在相同的成像设置下,非小细胞肺癌扫描的特征(包括大小、形状和纹理)具有良好的重复性;然而,当使用6种不同的成像设置(不同的切片厚度和重建算法)时,89种放射指标中只有19%是可重复的。该研究仅限于一台CT扫描仪,因此未评估影像组学特征测量的再现性。此外,还未评估改变CT采集参数(如管电压、管电流和螺距)对图像质量的影响,从而可能影响测量性能。
与CT影像组学的可靠性相比,MRI影像组学的可靠性已在有限的研究中得到评估。Yang等人最近进行了一项研究,以探究图像纹理特征对MRI采集参数的依赖性,并使用数字MRI模型进行重建,结果表明,对于有些纹理特征变异系数很大,如灰度差异矩阵和灰度大小区域矩阵(>20%);但有些特征差异性相对较低,如灰度共生矩阵。Yang等人的研究结果表明,并非所有的影像组学指标都同样容易受到基于扫描仪和成像协议的变化的影响。将多中心MRI数据库与使用不同脉冲序列和MRI扫描仪采集的图像相结合,以对大样本进行影像组学研究,某些指标可能是可靠的。Mayerhoefer等人进行了一项体模研究,以评估MR采集参数的影响,发现灰度共生矩阵特征通常对获得的平均扫描次数、TR、TE和接收器带宽的变化敏感,并且敏感性随着空间分辨率的增加而增加。Materka和Strzelecki在研究磁场偏差对纹理特征的影响时发现,纹理特征可能对磁场不均匀性敏感,因为强度的变化可能会掩盖底层纹理。该小组还报告了一些灰度共生矩阵特征(与其他纹理度量相比)对基于磁场的不均匀性的鲁棒性。
多项研究评估了基于PET的影像组学的可靠性。Leijenaar等人在一项非小细胞肺癌的影像组学研究中报告,大多数被评估的特征具有高重测信度(71%)和高观察者间一致性(91%)。总的来说,在重复PET检查中更稳定的影像组学特征也被发现在分割病变时更能抵抗观察者之间的差异。在一项食管癌研究中,Tixier等人报告称,与简单的PET测量(如标准化摄取值)相比,一些Haralick纹理指标,如熵、相异性和同质性,具有可比性或更好的再现性(平均差异<6%)。在实体瘤PET检查研究中,当迭代次数、网格大小、重建算法、重建后过滤器或这些元素的组合发生变化时,各种研究显示出很大的变化(>30%)。
未发现评估基于超声的影像组学研究可靠性的研究。然而,Gómez等人的一项独立研究分析了共生纹理指标作为灰度量化的函数,用于对乳腺超声结果进行分类,结果表明,在不进行平均的情况下,量化水平不会影响分辨力(AUC值,87)。然而,通过平均化,量化水平会对辨别能力产生负面影响(AUC值,81)。
未来展望
为了将影像组学转化为实践并最终在临床实践中的选定领域被接受,需要应对许多挑战。以下小节介绍了这些挑战。
成像和成像处理协议的可变性
不同的中心有各种各样的成像扫描仪。在不同的医院和影像中心制定统一的协议是不现实的。作为采集前协议标准化的替代方案,采集后协调校正可应用于不同中心收集的数据。Mackin等人表明,通过应用基于重采样的校正并在频域中使用Butterworth低通滤波器,可以减少因像素大小变化引起的CT影像组学特征的变化。Orlhac等使用高斯平滑协议来标准化三种不同PET扫描仪的数据,以减少测量纹理特征和标准化摄取值的多中心可变性。模型研究已用于评估影像组学特征测量的可靠性,影像组学特征的变化仅限于纹理。需要对所有类型的影像组学特征进行更全面的评估,包括大小和形状,以评估比较性能。未来的研究应提供有关成像参数和图像处理步骤的信息,以可靠地表示其结果。有关使用去噪、伪影消除和数据转换的详细信息应合理,并在材料和方法部分进行描述。
数据不平衡引起的问题
阻碍分类器全面评估的另一个因素是与生物医学数据相关的小样本导致的数据不平衡。研究人员必须在训练和测试数据集中努力确保平衡(即所有表型组的可比样本量)。目前,正在使用随机上采样、下采样和其他方法等数据采样方法来平衡数据。根据不平衡数据集的特征,最佳解决方案会有所不同。理想情况下,为了避免信息泄漏,应在研究开始之前预先确定训练和测试数据集。尽管在较小的数据集中使用了留一法等技术来评估分类器的性能,但与使用独立队列进行测试的研究相比,结果的普遍性受到了极大的限制。未来的研究应强调独立队列的表现。
ROI分割的可变性
手动分割引入了观察者之间和观察者内部的可变性。然而,必须为单个器官系统开发自动化技术,而且准确性尚未确定。目前,影像组学使用手动或半自动分割,并获得良好的组间组内差异可变性(<15%可变性)。然而,这一发现取决于特定类型研究的结果,如胸部病变的CT,不能推广到所有研究。采用手动分段的研究必须报告观察者之间的一致性结果,以表明该方法的普遍性。此外,从中提取纹理度量的肿瘤ROI的选择对于评估肿瘤内异质性至关重要。目前还不能确定是否应选择整个肿瘤体积或代表性肿瘤节段来选择ROI。在获取三维体积数据的未来研究中,应比较基于二维ROI的纹理度量与基于体积ROI的纹理度量的性能。
特征提取中的可变性
必须生成可靠反映各个感兴趣区复杂性的功能,但不能过于复杂或冗余。目前,使用了许多技术和算法,尽管对于标准方法还没有达成共识。可以使用免费软件,如IBEX、PyRadiomics、ImageJ和MaZda,以推进影像组学研究;然而,研究表明,基于所用算法的结果存在差异。在一项重复性研究中,Foy等人报告了使用不同软件程序时,除峰度外,所有一阶纹理度量之间的极好一致性。在同一项研究中,二阶指标表现出中度至较差的一致性。这些研究表明,每个程序中都存在差异,可能会导致结果纹理特征的可变性。未来的影像组学研究应说明使用软件版本并详细说明在使用开源软件时克服这些差异的方法。
特征选择方法的可变性
特征提取后的下一步涉及特征选择或降维,以优化给定训练数据集上的分类器性能。训练集包括训练候选分类器的样本数;交叉验证通常用于在候选分类器中选择最佳分类器。特征降维是避免分类器与训练数据过度拟合的重要步骤,尤其是当训练样本数明显小于提取的特征数时。有多种统计方法来减少特征数量,以优化候选分类器的性能,如决策树、神经网络、贝叶斯、随机森林、多元自适应回归和其他分类器。然而,根据固有的搜索标准和使用的评估方法,每个统计度量可能提供不同的特征列表。因此,结果分类器的性能将因最终的特征列表而异。
分类器验证指标的变化
训练完成后,使用独立的测试数据验证候选分类器的性能。根据交叉验证技术和使用的评估指标的选择,为给定应用选择的最终分类器将有所不同。AUC值是用于评估预测分布模型准确性的最常用方法之一。然而,AUC值仅被限制为性能评估,特别是在数据倾斜的情况下,从而破坏了实际评估分类器性能。因此,研究人员应该使用多个指标(AUC、假阳性、真阳性、召回率、精度和F度量值)来选择最终的分类器。然后使用测试数据(即未用于训练或验证的独立数据)评估最终分类器的性能;通常,测试数据分布不应与训练数据分布有显著差异。选择对测试数据表现最好的分类器作为给定临床应用的最终分类器。
随着影像组学领域的发展,有研究人员表明使用不同的成像模式和研究问题来解决影像组学问题将是至关重要的。该研究的目标是为影像组学工作流程制定基于共识的指导原则或指南。此外,提供对数据和编程代码的开放访问将有助于提高可靠性,并进一步为我们从多中心开展大规模影像组学研究提供机会。
为了开始这一过程,我们建议使用步骤清单来帮助评估影像组学研究的质量。虽然我们知道不可能每次都设计出一个理想的研究,但应该解决和理解每项研究的局限性(表2)。我们提供了一个通用模板,以帮助指导影像组学研究的设计和审查。此外,还应评估特定于给定成像模式或分析类型的更多步骤,这些步骤可能会增强影像组学工作流程的性能,例如使用机器学习进行分割、分类和性能评估。
结论
本文地址:http://sicmodule.glev.cn/quote/7817.html 歌乐夫 http://sicmodule.glev.cn/ , 查看更多