Echinobase是一个基于网络的资源,提供与海星、海参、海胆和其他棘皮动物相关的基因组、表达和功能数据的访问,从美国国家卫生研究院获得了 400 万美元的资助,用于维护该资源直至 2028 年。
卡内基梅隆大学的Veronica Hinman和Charles Ettensohn,以及卡尔加里大学的 Peter Vize,在 2020 年创建了 Echinobase 的最新版本。通过 Echinobase,他们和合作者为研究人员提供了信息和社区,以促进进化和发育生物学领域的研究。
海星和人类以及其他脊椎动物在早期发育、基因组组织和基因内容方面存在一些相似之处。世界各地的研究人员都在使用该数据库,CMU 生物科学系主任兼弗雷德里克·A·施瓦茨杰出生命科学教授 Hinman 表示,这项工作是一项不可思议的资源,而物种模型生物数据库对科学研究至关重要。
在以下问答中,生物科学教授 Ettensohn 讨论了 Echinobase 的重要性和影响。
当 2006 年首次公布棘皮动物(Strongylocentrotus purpuratus)的基因组时,人们意识到它所包含的大量信息以及对研究界的巨大价值。这导致了 SpBase 的创建,它是一个数据库和网络接口,允许研究人员访问与基因组相关的信息。这项工作由加州理工学院的 Andy Cameron 和 Eric Davidson 率先开展。随着已组装的棘皮动物基因组的数量增加,加州理工学院的创建者变得不那么活跃,三位研究人员(CMU 的 Veronica Hinman 和我,以及卡尔加里大学的 Peter Vize)认识到,通过将其扩展到新物种、用新的信息类别对其进行增强,并将其与为相关生物体构建的类似知识库相结合,既可以满足需求也可以把握机会来增强知识库。于是,Echinobase 诞生了。
NIH 的资助将支持策展人和生物信息学家的工作,确保知识库为研究界提供全面且最新的信息。它还将支持数据库开发人员和程序员,他们负责维护和改进数据库及其用户界面的架构。最后,它还将通过维护服务器和基于云的存储来保持 Echinobase 对公众的可用性。
150 多年来,棘皮动物一直被用来研究发育和细胞生物学、发育基因组学和进化的基本方面,从而增进对我们自身人类生物学的了解。随着动物基因组和功能基因组的出现,现代棘皮动物研究几乎完全依赖于基于基因的信息。Echinobase 是此类信息的中心存储库,对研究界来说不可或缺。
我自己的研究团队研究动物发育背后的基因调控过程。例如,我们干扰特定基因的表达以分析它们在胚胎发育过程中的功能,并研究建立细胞身份的基因复杂网络的架构。我们所做的一切都依赖于了解棘皮动物基因组的组织和其组成基因。
最后,NewsSerow会进行一次反思,再次检查工具的相关性分类是否准确。反思模块是可选的,研究人员加入这一模块以减少误报的数量。
研究人员发现,NewsSerow的表现与其他需要大量训练数据的新闻摘要和分类模型相当。
“这正是我们想实现的。我们希望为NewsSerow构建的这一工作流程能用于其他资源匮乏的语言,”方说。“为新语言建立工具时遇到的一个难题是,领域专家需要为我们标注300、500或1000篇文章。但要求他们标注10篇并不难,这是可行的。”
研究人员正在与世界自然基金会印度分会合作,将该工具扩展到对印地语和其他语言的媒体监测,并扩展到社交媒体等其他来源。