创新数据挖掘和整合技术,发布全球系统发育树开放数据库TreeHub
2025/12/9      点击次数:69   

       系统发育树作为揭示物种进化关系的核心图谱,是生命科学与进化生物学研究的基础。然而,科学界长期面临数据分散、更新滞后与获取不便的挑战,制约了相关研究的深入发展。

       为解决这一瓶颈,中国科学院植物科学数据中心提出了一种从科学论文和公共数据库中自动提取系统发育数据和整合相关物种信息的新方法。如下图所示,该方法主要分为三步。首先,系统发育研究收集:我们从PubMed和Web of Science等主流数据库,通过期刊列表和关键词(如“phylogeny”)系统检索截至2025年1月的相关论文,提取标题、作者、DOI等元数据,并以DOI去重。其次,系统发育树收集与清洗:利用API从Dryad、FigShare等开放平台下载数据文件,通过文件后缀和DendroPy库验证并提取Newick/NEXUS格式的系统发育树,同时使用Crossref API补充缺失的出版信息。最后,分类分配与数据整合:结合NCBI分类数据库,分别从论文元数据和树文件末端标签中自动识别并比对目、科、属、种等分类信息,以确定最终分类归属;此外,还将TreeBASE等公共数据库的数据进行提取、重建、去重后统一整合至数据集。整个过程实现了从文献发现、数据获取、清洗验证到分类标注与多源融合的全自动化处理。该方法能从已发表的科学文献及公共数据库中高效挖掘系统发育树数据,并与物种信息进行关联。在此基础上,我们构建了一个名为“TreeHub”的数据库,其中包括来自 7879 篇系统发育研究文章、涵盖 609 种学术期刊的 135502 个相应的系统发育树。该数据库将成为科学界可靠且易于获取的资源,有助于加速基于高密度数据的生物多样性研究和进化理论的创新。

自动提取系统发育数据的工作流程及其共享平台,包括系统发育研究收集、系统发育树收集、分类分配和数据集应用。

        TreeHub数据库的核心优势:(1)深度整合:首次实现了研究论文、原始树文件、分类学信息及物种元数据的系统化关联。(2)开放易用:数据库遵循CC-BY 4.0开放许可,提供在线平台(www.plantplus.cn/treehub),方便全球研究人员检索与利用。

        数据库访问链接:https://www.plantplus.cn/treehub 。数据集访问链接:https://doi.org/10.57760/sciencedb.23017 。

        该研究成果于2025年6月2日正式发布于期刊Scientific Data https://doi.org/10.1038/s41597-025-05282-4)上,四川师范大学助理研究员吴平为论文的第一作者,中国科学院植物研究所高级工程师吴慧为论文的通讯作者本研究得到了中国科学院战略性先导科技专项和国家自然科学基金的支持。


2025/12/10 18:22:42