precision(precision和accuracy的区别)
1背景
2022 年 5 月,FDA 发布了 Use of Circulating Tumor DNA for Early Stage Solid Tumor Drug Development Guidance for Industry (ctDNA 用于早期实体瘤药物开发指南草案),鼓励通过 ctDNA 进行分子残留病灶 (molecular residual disease, MRD) 的检测和评估,支持使用 ctDNA 作为生物标志物进行研究性新药申请和用于治疗早期实体肿瘤药物和生物制品的上市批准[1]。
MRD 主要指在治疗后体内持续存在的低于常规检测极限的残留肿瘤细胞或者相关生物标志物。它有多种表述:微小残留病灶 (Minimal Residual Disease)、可测量残留病灶 (Measurable Residual Disease) 和分子残留病灶 (Molecular Residual Disease)。MRD 是引发肿瘤耐药和复发的重要因素,也是判断预后的重要指标。ctDNA 是一种来源于肿瘤的 DNA 片段,因肿瘤细胞的裂解被释放进入血液中。ctDNA 的数量因人而异,取决于肿瘤的类型、位置、分期、肿瘤负荷和对治疗的反应。多项小型研究表明在手术或完成标准全身治疗后,根据 ctDNA 检测 MRD 阳性的患者,存在预后不良或者具有高复发风险[2,3],预示 ctDNA 或已经成为实时评估 MRD 和复发风险的动态标志物。
目前采用 ctDNA 检测 MRD 主要存在两大技术路线:tumor-agnostic (仅基于血浆检测的固定 panel) 和tumor-informed (基于肿瘤组织测序的 ctDNA 个性化定制方案)。当没有原发肿瘤组织,或者进行液体活检早筛时,主要以 tumor-agnostic 技术为主,其中准确检测 ctDNA 中低频突变位点是极富有挑战性的。文库构建和测序过程中可能会引入一些突变,如短读长测序平台的错误率约为千分之一碱基,与具有显著临床意义的体细胞变异体的突变频率大致相同,此外克隆性造血产生的背景噪音对 ctDNA 突变检测准确性造成严重干扰。作为一种解决方案,特异性分子标签 (Unique Molecular Identifiers,UMI) 被运用于 ctDNA 检测中,进一步降低碱基错误率,从而更准确地区分背景错误和真正的体细胞变异。
Sentieon 针对 ctDNA UMI 数据研发出了一套快速、高效、高准确性的流程,并在模拟数据、混合模拟低频突变样本、真实临床样本中进行性能验证,并与其他软件流程结果进行比较。从比较结果来看,Sentieon UMI ctDNA 流程表现优异。
2结果展示
Sentieon、纳昂达科技以及臻和科技联合共同发布高准确性和高工作效率 UMI 分析流程白皮书。该成果近期发布于bioRxiv (https://doi.org/10.1101/2022.06.03.494742),刊文中对计算机模拟数据、纳昂达提供的 3 例健康人混合模拟低频突变数据、SEQC2 (Sequencing Quality Control Phase 2) ctDNA 数据集[4] 以及臻和科技提供的10 例 tumor-informed MRD 真实样本数据进行 Sentieon UMI 流程性能测试,并与 fgbio+Vardict (Alternative Pipeline)[5,6] 流程以及臻和自研流程进行比较。
其中,纳昂达提供的 3 例健康人混合模拟低频突变数据涉及到的文库构建及杂交捕获系列产品信息如表 1:
表 1. 涉及的纳昂达文库构建产品
2.1 ►健康人混合模拟低频突变数据结果展示
纳昂达提供 3 例已知背景的健康捐献者 cfDNA 按照不同比例混合,模拟 0.1%-0.3% 的低频突变 MRD 样本 (图 1),模拟 MRD 低频突变数据详情见表 2。
图 1. 模拟低频突变 MRD 样本示意图
表 2. MRD 数据集的数据实验信息
对于模拟的 MRD 数据中已知的低频突变位点,Sentieon UMI 流程与 Alternative Pipeline 流程分别从 F-score、Precision、0.1%-0.15% 以及 0.2%-0.3% 突变位点的 Recall 进行比较,结果如图 2A 所示。从图中来看,除了Precision计算结果中,alternative pipeline 三样本略高于 Sentieon 之外,在两组数据的 F-score和Recall中,Sentieon 表现基本优于alternative pipeline。
此外,Sentieon 针对 UMI 数据分析进行加速处理,在分析 ctDNA UMI 低频突变时,所需时间相比 Alternative Pipeline,缩短 ~20 倍 (Sentieon 4317s VS Alternative Pipeline 82678s)。若给 Sentieon UMI 分配 10 个线程,Alternative Pipeline 的数据集被分成 10 份并行运行,此时 Alternative Pipeline 仍比Sentieon Pipeline 慢 ~10 倍 (图 2B)。
图 2A. Sentieon 与 Alternative Pipeline 流程准确性比较
图 2B. Sentieon 和 Alternative Pipeline 样本运行时间比较
注:Recall,又称 True Positive rate,是软件检测到的已知位点占样本所有已知位点的比例,又称召回率。
Precision,软件检测到的已知位点占软件检测到的所有位点的比例。
F-score,是 Recall 和 Precision 的调和平均,通过调节参数 β 平衡 Recall 和 Precision 在 F-score 计算中的权重:若参数 β=1,则表示 Precision 与 Recall 权重相等;若参数 β<1 则表示Precision 比 Recall 权重高;若参数 β>1,则表示 Recall 比 Precision 权重高;一般情况下 β=1,Precision 与 Recall 权重相等,即两个指标具有相同的重要性。
2.2 ►SEQC2 ctDNA 数据集分析结果展示
SEQC2 是由 FDA 领导的对基于 NGS 的 ctDNA 的多实验室、跨平台检测的分析性能评估的项目,该研究也是MAQC (MicroArray/Sequencing Quality Control) 第四阶段的一部分。该项目在体外混合两种具有已知体细胞变异的 DNA 样本,以不同的滴定率生成参考样本。
从该项目中挑选了 8 例 Lbx-low (包含突变频率中位数约为 0.2%,大多数突变频率高于 0.1%) 的样本数据 (表 3),使用 Sentieon ctDNA UMI 流程对样本进行检测,并与 SEQC2 项目中准确性最高的 BRP (Burning Rock Dx) 的分析 Pipeline 结果进行比较 (BRP 自研的 UMI 分析流程+VarScan2), Precision 和 Recall 结果见图 3,结果表明对于同样的高深度 UMI 数据集,Sentieon Pipeline 的结果在 Precision 和 Recall 方面都优于 BRP 的分析结果。
表 3. 挑选的 8 例 Lbx-low 样本信息
图 3. Sentieon UMI 与 BRP 流程 Precision 和 Recall 比较
2.3 ►tumor-informed MRD 真实样本数据结果展示
上述结果表明,在体外模拟混合样本上,Sentieon ctDNA UMI 流程都具有良好的性能。为了进一步评估该流程的性能,臻和科技利用 10 例真实的临床样本进行检测。该 10 例样本具有已知的致病突变,这些突变已通过肿瘤组织测序得到证实,10 例数据的信息见表 4。
表 4. 10 例真实样本包含的已知体细胞突变和测序信息表
对 10 例真实临床 MRD 样本,分别使用臻和自研流程 (Genecast MinerVa)、Sentieon 流程、Fgbio 3 种 UMI 识别流程识别比对序列中的 UMI 一致性序列,统计 10 例样本中共 224 个位点处含有突变的一致性序列 reads 数与该位点一致性序列总 reads 占比,并将该占比与正常人群进行验证计算 P 值。对于 Sentieon 流程和 Fgbio,当 P<0.05 时,该突变位点被标记为正,即表明该突变位点被正确识别且突变 reads 频率相比健康人群有显著差异;对于臻和自研流程,则要求 P<0.05 或者突变位点下双链 reads 支持数>0。分析统计结果如图 4 所示,Sentieon 和 Fgbio 检测的 positives 比例基本一致,臻和自研流程 positives 比例最高。值得一提的是,该分析中 Sentieon 和 Fgbio 没有考虑碱基质量,表明这两个流程的准确率仍有改进的空间。
图 4. 臻和自研、Sentieon 及 Fgbio 三种流程检测 10 个样本共 244 个突变的结果。
注:上图:灰色条的高度表示肿瘤组织测序中预先确定的变体集合数量。在每个灰色条中,绿色/蓝色/橙色条表示不同分析方法在同一样本中检测到的 ctDNA 变体的数量。下图:所有检测到的 ctDNA 变体的 VAF 均低于1%,大多数低于 0.25%。
3总结
多研究表明 MRD 阳性患者无进展生存期远差于 MRD 阴性患者,并具有复发高风险。ctDNA 作为评估 MRD 的潜在标志物,具有重要检测意义,但 ctDNA 在 cfDNA 中含量极低,所包含的低频突变难以与背景噪音和建库测序错误引入的突变进行区分。为了准确检测样本 ctDNA 的低频突变,可添加双端特异性分子标签 UMI,UMI 分子如同条形码一样特异性地标记每个 DNA 片段,可以辨别真实突变,并去除背景噪音、建库测序中引入的突变。
纳昂达早在 2018 年针对高深度液态活检需求推出适配 MGI 和 Illumina® 的双平台 NadPrep® 血浆游离 DNA 双端分子标签文库构建试剂盒,以及配套靶向捕获 Panel。然而,对于用户端来说,数据分析流程的准确度、耗时以及计算成本一直是痛点。Sentieon 针对 ctDNA UMI 数据研发出了一套快速、高效、高准确性的流程,并在模拟数据、混合模拟低频突变数据、真实数据中进行性能验证,从分析结果和运行速度上来看,Sentieon 的 ctDNA UMI 表现优异。
感兴趣的小伙伴可以试试哦!
未安装 Sentieon 软件的小伙伴可以与 Sentieon 公众号或官网,或者纳昂达 support@njnad.com 获取试用,已经安装 Sentieon 软件的小伙伴可以点击下载 UMI 分析脚本测试:
https://github.com/Sentieon/sentieonscripts/blob/master/example_pipelines/somatic/TNscope/Somatic_ctDNA_with_UMI.sh
关于纳昂达科技
纳昂达科技秉承“ Nano Trans More ”的核心理念和“靶向精准,用心服务诊断”的奋斗宗旨,致力于为科研院校、医疗机构、临检单位、产业公司、测序服务商等提供专业化和高质量的靶向测序产品与闭环解决方案。
纳昂达科技已通过高新技术企业、江苏省科技型中小企业和南京市精准高通量测序工程技术研究中心认定,并拥有> 2,000平米的高通量测序研发中心和> 4,000平米的GMP级别(YY/T 0287-2017 idt ISO 13485:2016)体外诊断试剂生产基地,建立了从市场调研、产品设计、生产制造到售后服务完整的质量管理体系。
纳昂达专注于精准靶向试剂和配套自动化仪器的开发、生产、销售和服务,目前拥有MGI和Illumina双测序平台多款NadPrepⓇ文库构建试剂盒和全套液相杂交相关产品。明星产品包括NGS全流程自动化工作站、肿瘤全外显子Panel、泛实体瘤和血液肿瘤Panel以及呼吸道病毒Panel等,并提供全面完善的双平台捕获探针定制化服务。纳昂达科技的靶向捕获产品拥有与国际同行业媲美的高质量水准,获得了客户一致的信赖。
纳昂达的销售网络覆盖全国并已外延至海外地区。纳昂达将与客户共成长,对客户的需求全力以赴,为全球用户提供靶向测序解决方案和IVD试剂原料。
关于 Sentieon
Sentieon 致力于解决生物信息数据分析中的速度与准确度瓶颈,通过算法的深度优化和企业级的软件工程,大幅度提升 NGS 数据处理的效率,准确度,和可靠性。
总部位于美国硅谷的 Sentieon 公司成立于 2014 年 7 月,团队成员具有多年的高性能计算,大数据挖掘,和人工智能的经验。自成立以来,Sentieon 多次赢得 precisionFDA 国际生物信息挑战赛的第一名,包括三次临床多组学联合分析AI建模大赛冠军,展现了业内顶级的研发实力。
Sentieon 为来自于分子诊断,药物研发,临床医疗等多个领域的合作伙伴和科研机构提供软件解决方案,共同推动基因技术的发展,实现“成就精准数据,服务精准医疗“的愿景。
关于臻和科技
臻和科技作为拥有政府临床检验中心颁布的临床基于扩增检验实验室技术验收合格证书,并正式许可开展“肿瘤相关基因项目(常规ARMS法和NGS法)”的国家高新技术企业,以二代测序技术和生物信息学为核心,致力于为肿瘤诊疗领域企业、医生和患者提供最专业的精准诊断,成为癌症诊疗过程中值得信赖的决策伙伴,最终通过应用基于基因检测和真实世界的临床数据,连接药企、医生和患者,实现“坚持科技突破和应用转化,成就医学进化和健康未来”的企业愿景。
参考文献
[1] https://www.fda.gov/regulatory-information/search-fda-guidance-documents/use-circulating-tumor-deoxyribonucleic-acid-early-stage-solid-tumor-drug-development-draft-guidance
[2] Powles, T., Assaf, Z.J., Davarpanah, N. et al. ctDNA guiding adjuvant immunotherapy in urothelial carcinoma[J]. Nature, 2021, 595(7867): 432-437.
[3] APY Liu,KS Smith,R Kumar,et al. Serial assessment of measurable residual disease in medulloblastoma liquid biopsies[J]. Cancer Cell, 2021, 39(11): 1519-1530.
[4] IW Deveson,B Gong,K Lai,et al. Evaluating the analytical validity of circulating tumor DNA sequencing assays for precision oncology[J]. Nat Biotechnol, 2021, 39(9): 1115-1128.
[5] https://github.com/fulcrumgenomics/fgbio
[6] Z Lai,M Aleksandra,A Miika,et al. VarDict: a novel and versatile variant caller for next-generation sequencing in cancer research[J]. Nucleic Acids Res, 2016, 44(11): e108.
标签: precision
相关文章
发表评论