在测序数据中调用变体的工具是开源的
由Google研究人员马克·德普里斯托(Mark DePristo)和瑞恩·波普林(Ryan Poplin)创建的用于识别猫和狗图像的人工智能在Google好奇号时代就是如此。这是一年,现在他们正在使用技术寻找基因突变。
正如Will Knight在麻省理工学院技术评论中所写的那样,他们取得了令人鼓舞的进展,“了解编码人类生活的大量数据仍然是一项艰巨的挑战。”
Megan Molteni,Wired,至少解读了挑战的本质,以便更多地了解我们的人类谜题。“今天,你需要一勺吐痰和一百块钱才能获得你的DNA快照。但是全面了解你的基因组中所有30亿个碱基对 - 需要一个更加费力的过程。一个,即使是在复杂的统计数据的帮助下,科学家仍然在努力。“
DeepVariant是由Google Brain团队的研究人员开发的,专注于人工智能技术,而Verily则是专注于生命科学的Alphabet子公司。
它基于相同的神经网络进行图像识别,但DeepVariant现在不仅仅是针对猫ID的头条新闻,而是作为一种扫描遗传密码进行突变的方法。DeepVariant已经开源了。DeepVariant的GitHub定义:“使用深度神经网络从下一代DNA测序数据中调用遗传变异的分析管道。”
研究人员表示,这是一种深度学习技术,其“比以前的传统方法具有更高的准确性”。
大众机械师索菲•韦纳(Sophie Weiner)表示,“识别基因突变比其他任何程序更好。”
FDA管理的2016年PrecisionFDA真实挑战评估了(当时)盲法评估样本HG002的几个社区提交的变体呼叫集。DeepVariant荣获最高SNP表现奖。
Weiner说,已经知道的一个程序是算法GATK,它使用大量数据来试图找出测序可能出错的地方。DeepVariant在技术上非常擅长识别编码错误。
DeepVariant使用不同的方法来尝试解决这些问题:“它将数据转换为图像。由于Google的AI最初用于图像识别,因此这种技术最终运行良好。”
大西洋的莎拉·张(Sarah Zhang)向读者介绍了DeepVariant发挥其魔力的方式,甚至对DNA测序机器一无所知。
“ 神经网络经常被类比为'神经元'层,逐渐处理更复杂的概念 - 第一层可能响应光,第二层形状,第三层实际物体。由于DeepVariant采用数据训练,它可以了解哪些连接'神经元需要加强,哪些要被忽略。最终,它可以根据错误对实际突变进行排序。“
任务变成了视觉。张说:“字母-A,T,C或G-got分配了一个红色值;该位置的测序质量为绿色值; DNA的两条链是蓝色值。一起,他们形成了一个RGB(红色,绿色,蓝色)图像。“
DePristo在大西洋引用。“它极大地改变了这个问题,从过分思考数据到寻找更多数据。”
奈特指出,它“自动识别测序数据中的小插入和缺失突变以及单碱基对突变。”
GATK还有一件事就是DeepVariant作为解释工具:速度。“该计划的功能大约是GATK的一半,”韦纳说。
向前进?“像DeepVariant这样的程序可以利用其复杂的数据分析能力来预测突变的影响,预测哪些基因可能会激活,”Weiner说。“这项技术的潜力是无限的,尽管我们仍然有办法赶上基因本身的复杂性。”
在12月4日的谷歌研究博客中,团队成员表示,DeepVariant作为开源软件的发布是为了加速使用这项技术解决实际问题。
“为了实现这一目标,我们与Google云平台(GCP)合作,在GCP上部署DeepVariant工作流程,这些工作流程采用可扩展的GCP技术(如Pipelines API)针对低成本和快速周转进行了优化配置。此配对版本提供一个平稳的坡道,供用户在当前的计算环境中探索和评估DeepVariant的功能。“
他们表示,它还提供了一个可扩展的基于云的解决方案,以满足最大的基因组数据集的需求。