CPTAC发布了基于上千例泛癌多组学数据的蛋白基因组学共享数据资源,该资源整合了基因组、转录组、蛋白质组学和临床数据,旨在促进癌症精准治疗研究。研究背景与目的蛋白质是代谢和信号转导的主要分子,蛋白质基因组学分析能将基因组突变与细胞生理影响联系起来,是实现癌症精准治疗的有力方法。然而,目前广泛、无偏倚的蛋白组学数据缺乏,蛋白质及其修饰数据严重不足。CPTAC旨在通过大规模蛋白质组和基因组分析加速了解癌症,创建共享数据集用于科学分析。主要研究内容数据生成:CPTAC从临床队列中生成全面的蛋白质组学和基因组学数据,数据集包括10个前瞻性肿瘤队列,涵盖基因组学、转录组学、蛋白质组学和磷酸化蛋白质组学分析,还提供标准临床/人口统计数据和组织学图像,如性别、年龄、肿瘤分级及分期等。同时,为保持一致性和可重复性,创建了数据集框架对所有蛋白质基因组数据重新处理。数据共享方法:CPTAC团队提出数据协调的计算方法和多种传播机制,以共享原始及处理后的数据。数据共享和集成分析数据传播途径:CPTAC计划生成的蛋白质基因组数据通过基因组数据共享(GDC)和蛋白质组学数据共享(PDC)公开传播。GDC、PDC作为NCI云资源组成部分,与其他NCI研究数据共享资源完全集成,促进基于云的蛋白质组、基因组和成像数据分析。PDC通过强大数据模型组织数据,保持数据和相关元数据的一致性和完整性,并提供界面过滤、查询、搜索和可视化蛋白质基因组数据。其他数据共享资源:NCI的癌症研究数据共享包含与数据类型无关的癌症数据服务(CDS),存储在CDS中的CPTAC数据包括用于泛癌症分析的所有统一的蛋白质基因组数据以及衍生分子数据。工具评估:CPTAC由多个小组组成,对同一组数据应用不同软件工具可能导致不同结果,基准测试对工具评估和选择很重要。研究团队开发了OmicsEV,通过十多个评价指标全面评估数据深度、数据规范化、批处理效应、生物信号、平台重现性和多组学一致性。程序数据存取软件包开发:CPTAC团队开发软件包,将最终定量数据表作为数据帧变量直接融入编程环境,可与SciKit - learn、PyTorch等常见机器学习和可视化包集成,简化数据访问,提高数据透明度和可重现性。数据集连接:研究团队将CPTAC数据集连接到其他大型公共数据集以扩展效用。除利用Bioconductor中众多软件工具外,用户通过TCGAbiolinks工具可轻松访问TCGA、GENIE和MET500等资源的分子数据。用于数据可视化和分析的Web门户PepQuery:允许使用MS/MS数据对基因组突变进行快速简单的蛋白质组学验证。研究团队引入新数据索引算法提高搜索速度,扩展了PepQuery Web服务器的数据集,用户可用新肽或DNA序列直接查询CPTAC和其他MS/MS数据寻找支持的肽谱匹配(PSM)。LinkedOmics和LinkedOmicsKB:LinkedOmics允许使用来自TCGA和CPTAC的癌症多组学数据表征任何目标临床或分子特征,对于每一项CPTAC研究,数据库存储超50万个属性的数据,使用三个分析模块挖掘数据揭示遗传突变结果,表征基因和PTM功能。LinkedOmicsKB是基于LinkedOmics开发的新知识门户网站,通过一次查询可获得单个基因和表型的预先计算结果,具有用户友好的可视化功能。PTMcosmos:是一个交互式Web门户网站,旨在对人类PTM进行分类和可视化,允许人们查询现有PTM位点相关文献、肿瘤和正常样本之间的丰度差异以及蛋白质结构上的PTM突变簇。ProTrackPath:可用于访问泛癌队列中的通路富集评分,通过单样本基因集富集分析(ssGSEA)计算不同癌症类型的通路富集评分,用户指定通路数据库并选择一组通路进行可视化,最终生成交互式热图。结语研究团队重新处理了来自CPTAC的10个癌症队列的数据,创建了泛癌蛋白基因组数据集,并介绍了创建数据概要的方法、数据访问方法以及泛癌症多组学数据分析的关键。目前,CPTAC数据库资源已公开共享,有望推进癌症诊断和治疗。同时,CPTAC团队在Cell发表的两篇研究文章展示了该数据集的应用,一篇确定了10种癌症类型共有的致癌驱动途径,另一篇确定了多种泛癌多组学特征,强调了PTM对已知受癌症影响过程的贡献。



































