从悲痛到突破 AI检测癌症 到底是不是智商税?(组图)

有时候,科学的进步,背后往往都有一种痛苦的催化剂,即使在AI领域也是如此。

例如,在地球的另一端,有这么一位老人,他一生中三次踏入婚姻殿堂,却不得不两次面对生命无法承受之重——前两任妻子,一个因乳腺癌的无情侵袭,在漫长的斗争后悄然离世;另一位,则是在与胰腺癌的艰难抗争中,与他永别。

然而,这样的痛苦,却也在冥冥之中,为他指明了一个新的方向。

这位老者,便是AI三教父之一的杰弗里·辛顿。

在辛顿的历任妻子接受治疗的过程中,他注意到,传统的影像分析,依赖于放射科医生的专业知识和经验,这个过程往往既费时,又容易受到主观判断的影响。

于是,在2017年的《纽约客》采访中他表示,深度学习将在5到10年内超过放射科医生的诊断能力,并认为AI系统将能够比人类医生更准确地检测疾病,如乳腺癌。

01 坎坷“看片”之路

尽管从现在来看,放射科医生的饭碗依握得很牢,但某种程度上说,辛顿的愿望,确实部分实现了。

今年5月30日,联合国在瑞士日内瓦召开AI for Good全球峰会上,一位中国女性患者吹奏口琴的视频吸引了全场的注意,她是全球首位AI胰腺癌早筛技术的受益者黄女士。

去年4月,本来只是因为一点小咳嗽,去医院做了个常规的CT平扫,没想到这一扫,黄女士竟然被AI识别成了疑似早期胰腺癌。

而医院之所以想到要用AI,是因为她的CT影像被纳入了阿里达摩院牵头的“平扫CT+AI”癌症早筛项目。

返回医院复查后,AI的判断果然是对的:胰尾部真的有肿块!

在使用对比剂进行增强扫描后,确定其大小为25×31mm。这大约是一颗中等大小的葡萄那么大。

正是因为发现得早,并很快进行了手术,黄女士才从胰腺癌这种全球生存率最低的恶性肿瘤之一的魔爪下幸存了下来。

在一般情况下,在被确诊为胰腺癌后,仅有约5%的患者能够存活5年。

而研发这项AI检测技术的,正是阿里达摩院医疗AI团队,以及其所打造出的胰腺癌检测模型PANDA。

问题是,癌症早筛这件事,难度为什么那么大?AI又是怎样突破人类极限,在很早的阶段就将其检测出来的?

关于第一点,首先,CT检测癌症病灶的原理,是利用X射线获取人体内部的断层影像数据。

当X射线束穿过被检查的人体部位时,不同组织密度导致X射线的衰减程度不同,从而在探测器上形成不同的衰减强度分布。

由于正常组织和病变组织(如肿瘤)的密度存在差异,例如钙化、血管增生等,因此在CT影像上就能清晰显示出来。

但问题是,一些早期的微小病灶,大多数情况下,都未出现坏死、钙化、出血等情况,未引起明显的密度或信号变化。

加上这些早期病灶的尺寸,大都非常微小,大概在0.3到0.5毫米之间,往往处在常规CT分辨率的边缘(0.5—1毫米),这就更难检测了。

在这种情况下,更高级的增强CT就该登场了。

因为增强CT是在注射造影剂后进行的,而造影剂这个玩意儿,往往具有碘或含钆的化合物,由于原子序数较高,这些成分对X射线或MRI(磁共振成像)的辐射有着不同于人体组织的吸收特性。

于是,在造影剂的作用下,血管就更加明显了。那些有异常血供(肿瘤往往有新生血管,血供更丰富)的早期病灶会在影像上更加突出,即便病灶本身很小,通过血流增强的差异也能更容易被识别出来。

这就好比在一幅画中,用更深的颜色勾勒出原本模糊的轮廓,让细节更清晰可见。

既然如此,那以后遇到癌症筛查方面的事,直接统一上增强CT不就好了?

02 难以承受的增强CT

统一用增强CT来进行癌症早筛,想法很好,可是很不实际。

最重要的原因是,增强CT这玩意儿,成本实在太高了。

这其中的大头,首先就是造影剂。普通的造影剂价格大约在300-400元左右,而对肾脏损害较小的造影剂价格可能接近700元。

因为造影剂这东西,既要在体内达到理想的显影效果,同时又要确保生物相容性好、毒性低。这就对其分子设计、化学合成方面的技术要求颇高。

技术难度大,能生产的企业就少。

这使得造影剂市场目前缺乏有效竞争,且由于专利保护的存在。制药公司可以维持较高的定价水平。

数据来源:观研报告网

再者就是,增强CT所用的设备,也比普通CT要金贵得多,例如高端CT扫描仪通常配备有更多的探测器排数,如64排、128排甚至256排。

更多的探测器,意味着能获取更精细的图像数据,但相应的成本也会跟着提升。

例如,一台只有16层的普通CT扫描仪,价格通常在30万至50万美元之间;而拥有256层的高端CT扫描仪,价格则在200万至300万美元之间。

如此高的成本,就带来一个问题:在实际检测中,造影剂是要按次消耗的,设备也会因使用次数产生折旧费用,如果全面用增强CT代替普通CT,很多时候就会出现“大炮打蚊子”的情况,造成医疗资源的极大浪费。

因为对于癌症检测来说,医生建议做增强CT的时候,往往是病情到了有明显症状的阶段,例如出现持续性肿块、不明原因的体重下降、持续性疼痛等。

倘若在看不出明显症状的情况下,医生遇到任何一个病人,都优先选择增强CT,那万一最后检测出的结果不是癌症,而只是假阳性或某些小病症咋办?

白白浪费了昂贵的医疗资源不说,还可能挤占真正需要这些检测的高危患者(已出现明显症状)。

在医疗领域,这种两难困境或悖论,被称为“早期检测悖论”(Early Detection Paradox)。

既然如此,那有没有一种办法,能够既结合增强CT的技术优势,同时又具备普通CT那样易于大规模推广的普适性?

这个时候,AI和深度学习不可替代的优势就显示出来了。

03 AI之力

在前面提到的阿里所使用的PANDA模型中,最重要的一个技术,就是一种叫做“图像配准”的技术,将对比增强CT上的病变标注“复制”到非对比CT图像上。

用直观的语言来描述,这种做法就是:先找两张CT图片,其中一张是普通CT,另一张是增强CT,之后,PANDA通过将两张CT“重叠”在一起的办法,来将增强CT上的病变区域准确地映射到普通CT的相应位置上。

需要说明的是,这里的“重叠”,并不是简单地将两张图片进行物理上的重叠,而是通过算法,识别两张图片中的特征,并计算出它们之间的对应关系。

用一个比喻来说明,这就像是你有一个笔记本(增强CT),上面用隐形墨水写满了笔记,只有在特定的光线(造影剂)下才能看到。

在正常的光线下,你看到的笔记本页面(普通CT)是空白的。

而为了在没有特殊光源的情况下,AI也能知道普通笔记本上的哪些区域,对应着原先隐形墨水写下的内容,AI就要先将隐形墨水显形状态下的内容,复制到另一本普通的笔记本上。

这就相当于是在给AI一个“参考答案”,让它学习如何在只有普通CT的情况下识别病变。

如此一来,AI就能结合增强CT高精准度,以及普通CT低成本,便于大规模普及的双重优势,在筛查癌症时,能够又廉价又准确。

但问题是,这一过程看着简单,但真正做到精通的团队并不多。

这其中的难点就在于,如何在有限的模型参数下,提升AI对CT的识别精度。

这就像教一个人识图,理论上,换上个更好的眼镜(更强的识图模型),会直接有利于提升识别精度,但问题是,更强大的模型,通常意味着更复杂的结构、更多的数据。

而在医疗影像领域,高质量的标注数据尤其稀缺且昂贵,获取难度大。

更重要的是,模型结构越复杂,其解释性就越低,决策过程就会变得越不透明。

这在医疗领域是个大忌,因为医生需要理解模型为何做出某项诊断,毕竟性命攸关的事可不能靠概率来蒙,对吧?

于是,在参数有限的情况下,通过将识别步骤拆分成三个不同的网络阶段,就可以降低每个步骤的认知负荷,使识别过程更加有序和精确。

具体来说,在第一阶段,PANDA会使用nnU-Net模型——一种特定的深度学习架构,精确地识别和分割出胰腺的区域。就相当于用画笔勾勒出胰腺的轮廓。

在第二阶段,一旦胰腺区域被定位和分割出来,PANDA的联合分割和分类网络,就会判断这些区域是异常的还是正常的,如果异常,就要找出相应的病变区域。

第三阶段(Stage 3)- 病变亚型分类:在检测到病变之后,这个阶段的目标是对这些病变进行更细致的分类,比如区分不同类型的肿瘤或病变。

每个阶段的专注学习,就像在逐步调整“眼镜”的焦距,让大脑(AI模型)能够更清晰地看到并理解每一个细节。

04 民间版AI早筛神器

讲真,虽然用AI来进行医疗影像检查,早已在人类的预料之中,但这个技术真正成熟,却是最近两三年的事。

这也是为什么,在阿里将这项成果的论文发表在《自然·医学》上后,很多审稿人都不相信这类技术已经成熟到足以胜过人类了,以至于质疑声不断。直到后来,阿里在法兰克福的节点上创建了一个可操作的demo,才消除了疑虑。

不过,或许令这些审稿人更难以相信的是,早在阿里推出PANDA之前,一个名叫coolwulf的中国“民间奇侠”,早在2018年就已经尝试用50张1080Ti搭建了一个初级的 GPU 运算集,乳腺癌的检测。

coolwulf,原名姜浩。

分别于南京大学物理系、密歇根大学核工程和放射科学系,攻读本科和博士学位。

虽然主业是影像医学,但业余时间也是个做开源项目的程序员。由于目睹了自己年仅 34 岁的南京大学校友,由于错过了乳腺癌最佳治疗期,而不幸离世,coolwulf开始意识到,乳腺癌因为早期症状不明显,很容易耽误治疗。

于是,在悲痛的驱使下,具有编程天赋的coolwulf,开始尝试打造一种专门用来“看片子”的AI,以便让那些无法及时就医的病人,提早得知病情。

coolwulf 姜浩( 右一 )

对于编程天赋颇高的coolwulf来说,撰写对应的模型代码,可以通过自学钻研解决,但对于一个势单力薄的个体而言,真正的难点却在数据和算力方面。

在coolwulf创建这个项目的时间段(2018年),GPU的算力远没有今天这样发达,A100、H100这样的算力专用卡也还未问世,当时coolwulf能搞到的最顶级的GPU,就是主要用于游戏的显卡1080Ti。

而就算是这样的显卡,由于当时挖矿潮的原因,coolwulf还得跟各路黄牛和矿工斗智斗勇才能尽力买到。

对于深度学习来说,1080T最大的局限性,就在于其缺少专门的张量核心(Tensor Cores)。

这是后来的图灵(Turing)、安培(Ampere)和Hopper架构的GPU才引入的新功能。其极大地加速了深度学习中常见的矩阵运算和张量操作,从而提高了训练和推理速度。

其次,从显存上来看,其11G的显存,对于深度学习而言也着实太小了(A100为40GB HBM2),因为足够的显存,在处理数据集或是复杂模型时则至关重要。

而在数据方面,由于医疗数据包含个人信息,往往受到严格的法律保护,因此,很多高质量的医疗影像数据集往往并不公开,或者在使用前需要经过严格的审批流程。

对于没有机构和大企业作为靠山的个人来说,要搞到这些数据极其困难。

因此,coolwulf 先在佛罗里达大学的官网下载了 DDSM、MIAS 数据集。并专门写了一个程序,将这些胶片翻拍的久远数据转为可用形态,之后又专门给巴塞罗那大学写了一封申请信,请求获得其非公开的乳腺癌数据集。

MIAS 数据集页面

尽管历经了这种种的局限与困难,当coolwulf最终完成了 AI 检测乳腺癌网站的搭建,并且向公众免费开放后,肿瘤识别的准确率,仍然达到了 90%。

这足以见证当时深度学习在癌症检测方面的强大。

对很多身患乳腺癌的患者来说,这样的技术,无异于延缓了打开死亡之门的时间,是一种真正能够救命的科技。

结语

尽管当时coolwulf搭建的AI检测平台,已经在乳腺癌检测的准确率上十分出色,但本着与时俱进的精神,在算力大爆发的今天,coolwulf也在其最新的AI检测项目——NeuralRad上,将GPU从1080Ti换成了4090。

更难能可贵的是,在算力成本骤升的情况下,这个AI检测项目仍然是免费的。

至于为什么仍坚持免费,用coolwulf自己的话来说,是因为他知道,真正需要这种技术的患者,往往都身处那些医疗资源十分稀缺的地区。

在那里,人们不仅很难找到经验丰富的放射科医生,甚至因为电力不足,这些地区的医院还不能让放疗机器和 CT 同时工作。

这样的地区,大都是一些穷困之国,贫瘠之地。对这些地区的百姓收费,既不现实,也让人于心不忍。

甚至,考虑到这些地区缺乏相关硬件(GPU)的情况,coolwulf还特意将NeuralRad项目放在了云端,进一步降低了使用门槛。

从这个角度上来说,无论是阿里达摩院的PANDA,还是coolwulf近期打造NeuralRad,除了在时间维度上,能尽早帮助患者筛查癌症,摆脱死神的魔爪外,在空间维度上,也让更多医疗资源稀缺的地区,填平了资源的鸿沟,使更多原本绝望的,注定要逝去的生命迎来了转机。

在当下关于AI行业的讨论中,很多人都在质疑,目前的这场AI浪潮,究竟是不是一场泡沫,是不是一场炒作。

然而,AI在医疗影像方面的应用,却实实在在地证明了,AI终归不是花哨的玩具,而是可以救人一命的关键力量。仅凭这一点来说,这次的AI革命,就不可能是一场泡沫。

而通过技术手段,让大多数人无解或难解的痛苦得以消除,这就是科技带来的善。


推荐阅读