(资料图片)
人类基因组由约30亿个DNA碱基对组成,DNA双螺旋结构由A、T、C、G四种碱基有序排列而成。其中,负责编码蛋白质的基因仅占约2%,而约98%的区域为非编码区,这些通常被称为“暗基因组”的区域虽不直接编码蛋白质,却能影响基因表达。大量与疾病相关的变异位点正位于这些被科学界知之甚少的非编码区。
传统方法往往需要在序列长度和预测精度之间做出权衡,AlphaGenome模型则打破了这一技术瓶颈,实现了对长DNA序列进行高分辨率预测。该模型利用人类和小鼠的基因组进行训练,并学习了DNA序列如何影响各种生物过程。
研究显示,AlphaGenome模型可以预测长达100万个碱基对的DNA序列的功能。这一工具不仅可以预测基因的位置,还可以预测“暗基因组”对基因表达和基因剪接等产生的影响。值得一提的是,该模型可以预测遗传密码中单个“字母”(单碱基)的变化所带来的影响。
研究团队通过26项基准测试对AlphaGenome模型进行了综合评估,结果显示,该模型在25项任务中达到或优于现有最先进模型的水平。
“深层思维”公司团队当天在社交媒体说,这一工具可帮助科研人员了解DNA,预测基因变化的分子影响,并推动新的生物学发现。
AlphaGenome模型已于去年开放给非商业用途,此后已有3000名科学家使用过该工具。虽然开发该模型的研究团队表示这一模型并不完美,但一些科研人员已将其描述为“一项了不起的成就”和“一个重要的里程碑”。
标签: news
内容搜集整理于网络,不代表本站同意文章中的说法或者描述。文中陈述文字和内容未经本站证实,其全部或者部分内容、文字的真实性、完整性、及时性本站不做任何保证或者承诺,并且本站对内容资料不承担任何法律责任,请读者自行甄别。如因文章内容、版权和其他问题侵犯了您的合法权益请联系邮箱:5 146 761 13 @qq.com 进行删除处理,谢谢合作!