功能学|科亚医疗曹坤琳:合规认证、数据集建设,医疗AI首证背后的经验全盘点( 三 )


深度学习因为是数据驱动的工程技术,因此数据收集工作在深度学习医疗产品的开发中尤为重要。下面我们就数据集建设工作,结合产品进行详细分享。
深脉分数数据集建设经验
功能学|科亚医疗曹坤琳:合规认证、数据集建设,医疗AI首证背后的经验全盘点
文章插图
第一,数据次采集和入组,目前临床操作规范,提出了关于冠脉CT和FFR数据的采集要求与入组协议。
同时,明确数据质量评估标准,以保证数据质量都能满足后续预处理步骤要求;之后,采集的所有数据都在医院内完成脱敏,这样就形成我们原始数据库。
功能学|科亚医疗曹坤琳:合规认证、数据集建设,医疗AI首证背后的经验全盘点
文章插图
第二,原始数据库清洗、逐个检查,把重复、不合格的数据剔除掉;而合格数据进行编号,形成基础数据集。在这个过程中,逐个检查,剔除重复或不合格数据;对合格的数据进行编号,以形成基础数据集。同时我们对样本来源机构、采集设备、扫描参数、人口基线、病变分布等等信息进行统计,保证数据集多样性和充分性。
功能学|科亚医疗曹坤琳:合规认证、数据集建设,医疗AI首证背后的经验全盘点
文章插图
第三步,数据标注,这一步非常关键,直接影响模型训练的质量。
在这个过程中,我们首先要制定标注和医生选拔培训考核标准,明确标注使用软件和流程、医生审查标注结果需要注意的规范;
同时,保证记录每一个数据标注、过程和人员做到可追溯,在这样严格规范和质控下,我们就构建出了高质量标注数据库,保证后续算法开发有效性。
功能学|科亚医疗曹坤琳:合规认证、数据集建设,医疗AI首证背后的经验全盘点
文章插图
第四,提出数据集划分方法和划分比例,将数据标注数据库划分为训练集、调优集和独立测试集。需要注意的是,划分后训练集要保证它的样本分布尽可能地均衡,而调优集和测试集则需要重点保证它的样本分布,尽可能地符合临床实际情况。
这样就完成从原始医疗数据,到构建AI算法开发所需的各个数据子集的建设工作,在这个数据收集过程中,我们对各项风险的分析贯穿始终。
逐项分析参与人员、使用工具、处理流程对我们输入的原始数据和输出的各个数据子集可能带来的影响,从而及时采取风控措施,来保证构建数据集的完全安全和可靠性。
功能学|科亚医疗曹坤琳:合规认证、数据集建设,医疗AI首证背后的经验全盘点
文章插图
数据集建设会直接影响到我们算法的性能和软件的使用风险,所以需要高度的重视。同时,我们需要把基于风险全生命周期管理体系合理应用在整个开发流程当中。
基于合理的数据集,我们研发了专有的CT-FFR技术,在保证产品有效性的同时,筑建自身技术壁垒,为产品在海内外的运用推广提供保障。
功能学|科亚医疗曹坤琳:合规认证、数据集建设,医疗AI首证背后的经验全盘点
文章插图
任何的 AI医疗产品,它最后的价值都会落实在临床使用上。那么深脉分数作为一款创新型AI医疗服务产品,一来可以帮助患者减少不必要的手术;二来对于医院来说,可以提高手术资源的使用效率,使进到导管室的患者基本都是阳性患者,所以深脉分数得到了国家药监局的认可,也首个获得了AI三类证。
由于深脉分数是一款创新型AI医疗服务产品,所以我们率先并积极地推进它的物价审批工作。目前,我们已经获得了北京、河北、安徽、山东、江苏、浙江、云南7个省市的物价收费编码,实现了AI医疗服务面向患者收费的通路。
此外,还有10余个省份的物价收费编码的工作即将完成审核。希望真正让AI技术落地,在临床上带来它增效提速的效用。 除了CT影像外,科亚医疗也凭借强大的研发能力,针对心血管诊疗的问题,布局了从筛查、诊断、治疗到随访的全流程产品服务体系。
这里面包括影像结构分析、影像功能分析,涵盖了软件、硬件以及耗材领域。我们把它们有机融合起来,为临床各个环节的需求提供解决方案,助力实现AI医疗产业链健全。
从冠脉产品管线开发出发,我们也在积极地布局其他管线,像在脑血管影像科等多个临床科室一级科室,也在拓展覆盖从筛查、诊断、治疗到随访的全过程的产品。
功能学|科亚医疗曹坤琳:合规认证、数据集建设,医疗AI首证背后的经验全盘点
文章插图
除了智慧心,还有智慧脑、智慧影像、智慧肺等等,对这些产品线我们都强调针对单病种、全流程进行服务。
问答环节雷锋网:金标准数据集有多大规模?
曹坤琳:刚刚也有提到,算法开发分为两个部分,一个是结构分析模块,另一个是功能分析模块,每个模块所使用数据是不同的。