2024年9月4日,永利集团88304官网林学院郑郁善教授团队在Advanced Science《先进科学》发表题为“ De novo whole-genome assembly of the 10-gigabase Fokienia hodginsii genome to reveal differential epigenetic events between callus and xylem”(福建柏10G基因组的组装揭示愈伤和木质部差异的表观遗传学调控)的研究论文,由永利集团88304官网林学院工业原料林研究所郑郁善教授团队主持的“福建柏基因组学研究”取得突破,破译了福建柏基因组,为首次报道染色体水平柏科基因组。
福建柏又名建柏、滇柏、广柏,属柏科扁柏属,被列为国家二级重点保护珍稀植物。福建柏高可达30m或更高,胸径达1m,树干通直,是优良的园林绿化树种;特别是适应性强,生长速度快,对立地要求不高,是适合我国南方大力推广的造林树种。福建柏作为一种典型的柏科裸子植物在中国有广泛的分布,不同种源的福建柏在茎干、分支和叶片形态上表现出差异(见图1)。由于福建柏基因组较大,其染色体水平的基因组学研究尚未见报道,阻碍了其基础及应用研究的发展。本研究首先构建福建柏染色体水平的基因组参考序列,基因组调研估算福建柏的基因组大小约为 10 G, 基因组的杂合率和 GC 含量分别估算为 0.54% 和 35.23%。
图一. 用于福建柏基因组测序的材料及14个种源的形态多样性
为了实现福建柏基因组的高质量组装,本研究采用了 PacBio 测序技术,以克服基因组的高重复性问题。使用 FALCON 对120 倍覆盖度的PacBio数据进行基因组组装出9.9 Gb的基因组数据。进一步通过 10X Genomics 的补充组装,最大的 scaffold 长度达 58M。为了生成参考级别的组装,利用 Hi-C 数据和 ALLHiC 算法 (Zhang et al., 2019)将 scaffold 组装成 11 个染色体 (见图2),与已报道的染色体核型研究结果一致。其中三个最大染色体长度均超过 1G大小。基于eukaryota_obd10谱系数据集(2024-01-08)的BUSCO(v5.3.2)评估显示,转录组和蛋白质模型中完整的BUSCO标记基因分别为92.6%和91.8%。使用OMArK (Nevers et al., 2024)检测福建柏基因组组装的基因完整性为92.88%。本研究提供了一个高质量的参考基因组组装,为研究裸子植物柏科谱系提供了重要资源。
裸子植物基因组具有显著的重复序列,其中长末端重复序列是主要的可移动元素(Niu et al., 2022),通过结合预测和RepeatMasker注释,发现福建柏基因组中63.11%被分类为重复区域。DNA转座子和逆转录转座子分别占福建柏基因组序列的0.41%和62.29%。长末端重复序列(LTRs)是最丰富的转座元素类型,占基因组序列的61.93%。由于这些元件的重复特性,组装它们具有相当大的挑战。利用LTR组装指数(LAI)来进一步评估本基因组组装质量 (Ou et al., 2018),LAI值显示福建柏每条染色体LAI范围从12.66到13.93,表明福建柏的基因组达到参考级别组装质量。
目前,银杏Ginkgo biloba (Liu et al., 2021)、油松Pinus tabuliformis (Niu et al., 2022)和苏铁Cunninghamia panzhihuaensis (Liu et al., 2022)是三种已被报道的高质量裸子植物基因组。使用OrthoFinder对四个代表性植物物种进行比较基因组分析时,识别出156,414个基因被分组为同源群,占总基因的84.3%。使用JCVI (Tang et al., 2024)对上述四个物种进行了全局和局部的共线性分析。福建柏与苏铁、银杏和油松之间的共线性块分别揭示了8,214对、7,441对和8,936对基因(见图2)。
图2. 福建柏染色体规模组装及比较基因组学
本研究使用了基于转录组的比对、预测以及同源搜索等方法共注释了50,521个蛋白编码基因。外显子的平均长度为269个碱基,内含子的平均长度为7,424个碱基。与被子植物进行比较观察到其较长的内含子(见图3)。同时内含子/外显子的长度与表达水平呈正相关。长内含子具有较高的TE插入频率。同时内含子中含TE的基因表现出较高的表达水平。这一结果表明,包含TE的内含子与mRNA表达有一定的相关性,这与之前在油松中的研究结果一致 (Niu et al., 2022)。对木质部进行的全基因组亚硫酸盐测序(BS-Seq)揭示了内含子区域的高DNA甲基化水平(图3)。包含内含子的基因具有较高的甲基化水平。相反单外显子基因显示出低甲基化水平。
图3. 福建柏木质部的石蜡包埋组织切片以及转录与DNA甲基化关联分析
在裸子植物中利用基因工程技术研究基因功能是至关重要的。愈伤组织作为一种分化组织类型,在植物再生和农杆菌介导的稳定转化中发挥着重要作用。全局DNA甲基化谱显示,相比于愈伤组织,木质部在编码基因和TEs中表现出较高的CHG和CHH甲基化水平(见图4)。此外差异甲基化区域(DMRs)的分析揭示木质部的增强甲基化区域数量大于愈伤组织。DMRs的分布显示,它们在转录起始位点(TSS)和转录终止位点(TTS)周围富集。特别是在CHH类型中,DMRs在启动子区域的富集尤为明显。
图4. 福建柏愈伤组织和木质部的DNA甲基化特征
进一步使用定量蛋白质组学比较愈伤组织和木质部的蛋白水平。总共发现了1,970个差异蛋白(图5),KEGG通路分析揭示上调蛋白质富集在RNA降解通路(图5)。这包括5' -> 3'降解复合体的组成部分(DDX6和EDC4)、3' -> 5'降解核心外泌体(Rrp40/4345和Mtr3)、5'外核酸酶(XRN2)和CCR4-NOT复合体(CCR4、CNOT1/3/7/8和PABP1)。
图5. 福建柏愈伤组织和木质部的定量蛋白质组学
定量蛋白质组学揭示了差异蛋白涉及RNA降解和mRNA 3'-UTR结合相关的蛋白。因此,本研究对愈伤组织和木质部进行了Nanopore直接RNA测序(DRS),以揭示两种组织间全局多聚poly(A)长度(PAL)和选择性多腺苷酸化(APA)的变化。DRS结果显示愈伤组织中的PAL长度普遍长于木质部(图6)。在愈伤组织中,具有较长PAL的基因在细胞壁生物合成、细胞骨架蛋白结合、己糖转移酶活性等方面表现出富集。特别地,观察到愈伤组织中的3'UTR由于APA而较短。
图6. 直接RNA测序揭示福建柏愈伤组织和分化木质部中全长比、PAL和3'UTR长度的变化
当前人们对福建柏的过度开采已对其遗传变异和分布造成了威胁。本研究收集了来自中国不同地区的14个福建柏种源。这些种源的叶片和茎表现出不同的形态特征,进一步显示了遗传多样性,并为未来的泛基因组和重测序提供了初步资源。基于14个种源单核苷酸多态性(SNPs)的系统发育分析揭示了七个不同的群体(图7)。萜类化合物是异戊二烯的聚合物及其衍生物的总称,常见于福建柏中并发挥重要作用。系统发育进化的结果显示,14个福建柏树种源可以分为不同的群体,如广西、三明和泉州组,与代谢组学结果一致地形成了一个簇(图7)。萜类合成酶(TPSs)是萜类化合物生物合成的关键酶。进化树分析揭示福建柏中的TPS基因家族可以分为七个主要类(TPS-a到TPS-f),其中六个类在被子植物中也存在。TPS-d代表了一个独特的支系存在于裸子植物中,和其他裸子植物比较发现福建柏具有更多的TPS基因。
图7. 14个不同种源福建柏的生理参数和基于代谢组的萜烯分析
本项目所产生的高质量染色体水平的福建柏基因组和表观组的释放,对将来福建柏的遗传多样性调查、良种选育、材性研究和资源保护起到促进作用。林学院荣俊冬和郑郁善教授为共同第一作者。郑郁善教授和林学中心顾连峰教授为该论文的共同通讯作者。林学院、风景园林与艺术学院的凡莉莉、邓智文、潘雁梅、李秉钧、陈礼光、何天友、陈凌艳、叶菁、郑林参与了该项目, 林学中心张泽宇、张珺、顾煜莹、华天、赵梦娜和张航晓也参与了该项工作。该研究得到了国家重点研发项目、福建省林业种苗科技攻关和林学高峰学科等项目的资助。
论文全文链接:
https://onlinelibrary.wiley.com/doi/epdf/10.1002/advs.202402644