新闻

bt356官网

菜单

生物学家开创了解码基因表达的第一种方法

基因组'rosetta STone'采用强大的算法以近乎完美的准确度识别可表达的基因

Corn field, sunlit background

美国圣地亚哥生物学家开发了一种基于训练成千上万个玉米植物基因的算法来解码基因表达的方法。信用:iSTock / andres victorero

鉴于最近遗传学的显着进步,很容易假设21ST 世纪科学家拥有一种清晰,快速的方法来进行基因组序列扫描,并找出数千种基因可以表达哪种基因,哪种基因不能表达。基因表达是基因中编码的信息导致关键产物(如蛋白质)的过程。

令人惊讶的是,直到现在还不可能。加利福尼亚大学圣地亚哥分校的生物学家开发出了第一个基于机器学习来确定基因表达的系统。由于缺乏这种方法,新工艺被认为是生物学家的一种基因。

“这篇论文代表了区分可以表达的基因的第一种方法,”生物科学教授和该论文的高级作者史蒂夫布里格斯说。 “这是所有生物学的基础。无论是药物发现还是植物育种或进化,这都触及了生物学的基础研究。“

该方法由研究生ryan sartor,布里格斯及其同事开发, 在美国国家科学院的会议记录中描述了2019年8月16日。

生物学家之前已经通过实验观察和科学文献参考将基因表达分类。但是基因组学领域缺乏一种揭示这种信息的形式化过程,称为“可表达基因集”,或者包含所有可能表达的蛋白质编码基因的egs。

“在生物学方面,没有 方法 做到这一点,“布里格斯说。 “过去我们只是采用经验方法来制作目录 - 我们还没有基于其分子特征对基因进行分类的科学标准。”

新方法利用机器学习,算法和其他过程的使用来分析数据,并且基于包含特定的,详细的分子特征的近30,000个玉米植物基因的示例集。对数据进行了高级算法训练,并“学会”将基因表达分类为99.4%。

这一进步的关键在于将染色质生物学结合在一起,这有助于调节细胞内的dna包装,并具有确定基因表达的分子特征。将这些与数学机器学习相结合,确定全物种转录基因组的新方法,或“表达组”,然后创建可表达基因的图谱。该方法也可用于理解沉默某些基因的进化机制。

布里格斯现在正在将这种方法应用于高粱,这是一种重要的食物和饲料谷物,但是它说它可以在植物物种之外使用。最终,他说新方法就像一个单词解码器。

“基因组序列就像一本书,”布里格斯说。 “这些词是基因。直到现在,我们还不知道哪个dna序列是真正的单词,哪些只是单词。通过删除非单词,我们现在可以更准确地阅读本书。“

该论文的共同作者包括明尼苏达大学的jaclyn noshay和nathan springer。国家科学基金会的植物基因组研究计划支持该研究。


媒体联系

马里奥阿奎莱拉, 858-822-5148, 。(必须启用javascript才能查看此电子邮件地址)

uc san diego's 工作室十300 提供广播和电视连接,以便与我们的教师进行媒体采访。有关详情,请发送电子邮件 。(必须启用javascript才能查看此电子邮件地址).