本期《精准前沿》栏目分享中科院北京生科院赵方庆团队发表于Nature Computational Science上的一篇研究[1],研究提出了一种用于评估微生物互作网络模块变化的算法NetMoss,可用于识别与各种疾病相关的生物标志物。
研究背景
人体内的微生物组对人类健康的许多方面密切相关,尤其是肠道中的微生物,它们与许多疾病的发生和发展密切相关。因此,全面评估微生物群与疾病之间的关系对改善人类的健康状况具有重要意义。准确识别生物标志物有助于临床诊断并改善临床预后预测,大量研究已经根据健康组和病例组之间的微生物丰度差异确定了可作为生物标志物的关键微生物。但数据的混杂效应会掩盖微生物群落的真实特征,易得出不可靠的结果。尽管一些研究试图通过纠正统计参数或微生物特征来解决这一问题,但由于微生物丰度矩阵过于稀疏,很难对不同批次的丰度进行校正,表现出的性能较差。因此,迫切需要新的算法模型来整合来自不同批次的微生物数据,解读复杂菌群数据的内在规律。
在人类肠道中,微生物物种的相互作用维持着群落结构,并为共生提供了稳定的环境,其中微生物互作网络有助于理解不同类群之间的关系。许多研究表明,微生物互作网络的应用可以简化疾病相关生物标志物的识别,从而达到改善临床预测模型的目的。数据整合中最常见的策略是基于微生物相互作用对组合网络,但这种方法没有考虑不同数据集之间的差异,基于微生物互作网络的分析仍然存在巨大挑战。
本研究中,研究者开发了基于微生物互作网络的NetMoss算法,该算法通过评估微生物网络模块的变化,来鉴定可靠的疾病标志物。NetMoss可以有效地减少批次效应,鉴别出更多可靠的疾病标志物,挖掘出一些丰度尚未改变但在微生物互作网络中已被扰动的关键微生物类群。此外,研究者发现,大部分疾病标志物不单单与一种疾病相关,而是与多种疾病有关,可能在多种疾病中有驱动作用。
研究设计
文章中提出的Netmoss算法针对不同微生物数据集的高异质性特点,利用微生物互作网络对不同来源的数据进行有效整合,通过比较不同状态下微生物网络的扰动情况,量化不同网络模块间的拓扑结构差异,从而实现对疾病标志物的识别。
研究结果
1. 大规模数据的整合中的批次效应
为了评估不同微生物数据集的潜在偏差,研究者从三个不同国家(中国、德国和美国)的七项独立结直肠癌 (CRC) 研究中收集了2,742个肠道微生物数据集。首先,研究者探讨了不同批次之间的异质性。主坐标分析(PCoA)表明,研究之间的差异远大于病例对照组之间的差异。在7项CRC研究的所有665个属中,尽管142个属存在显著差异,但各项研究中共有的微生物较少,并且这些共有微生物的丰度变化也有很大差异。这种差异表明,在不同数据整合过程中忽略批次效应时,结论不太令人信服。
随后研究者探索了不同批次之间微生物互作网络结构的差异,首先构建了七项研究的微生物互作网络,发现大型研究中的微生物相互作用比小型研究中的弱得多,这可能是因为大型队列中的微生物分布更均匀,其网络结构比小型研究要松散得多。由于缺乏适当的标准化,无论是经典的微分丰度方法还是之前的整合网络方法都无法在整合各种微生物群数据集时取得令人满意的性能。
图1. 肠道微生物群META分析中的批量效应及面临的挑战
2. 使用单变量加权方法的整合网络
由于大型研究构建的网络微生物互作较为微弱,将不同大小的数据集直接整合到一个网络中可能会掩盖大型数据集的真实微生物特征。为了解决这个问题,研究者使用单变量加权的方法,为更大的数据集分配更大的权重,以增加其在最终整合网络中的贡献。首先在成对排列测试中验证了该方法,在所有组合中,大型研究对整合网络的贡献更大,贡献随着纳入研究的样本量而增加。在所有七个网络的整合中观察到类似的结果:规模越大,其对最终整合网络的贡献越大,表明这种单变量加权方法可以有效地突出最终大型研究的强度网络并减少整合过程中的偏差。为了进一步验证单变量加权方法是否可以消除整合过程中的批次效应,对七项研究生成了127个不同的整合网络。单变量加权方法的网络距离分布不仅表现出更均匀的模式,而且随着整合网络中包括的研究数量的增加,网络距离的分布急剧下降,说明基于单变量加权方法的不同数据集的整合可以减少研究之间的异质性。值得注意的是,单变量加权方法也显示出网络距离和样本不相似性之间显著更高的相关性,表明其在描述研究之间的差异方面表现更好。为了探索不同方法之间的差异,研究者使用四种不同的策略构建了网络:(1)简单地基于丰度整合数据集,而不去除批次效应(未处理);(2) 基于单变量加权法整合数据集;(3-4) 基于丰度整合数据集并使用 (3) combat或 (4)limma消除批次效应。与先前的研究一致,传统方法在微生物数据集上的批量效应去除中效果不佳。相比之下,单变量加权方法显示最终整合网络与七个原始网络之间的距离较小,表明其在捕获原始生物特征方面具有良好的性能。
图2. 使用基于网络的方法整合多个研究
3. 使用基于网络的算法预测健康到疾病的转变
为了描述从健康到疾病的转变并识别此过程中的关键微生物,研究者提出了一种基于网络的差异分析算法NetMoss。首先生成了两个模拟网络,以确认NetMoss算法能够测量不同状态之间网络结构的变化。对网络进行扰动后,40个子模块中有30个从模块1过渡到模块2,这意味着从健康到疾病的转变。随后计算整合网络中这40个分类群的NetMoss分数,以确认此方法是否能够区分过渡子模块和其他子模块。结果表明,86.7%的过渡子模块可以通过NetMoss预测,表明它在识别与驱动状态转换相关的微生物方面具有良好的性能。
为了进一步评估NetMoss方法的性能,引入了用于衡量网络中节点变化的 Neighbor Shift(NESH)分数和 Jaccard Edge Index(JEI)与文中的方法进行比较。重新扰动模拟网络并添加了不同的噪声来测试这三种方法是否可以正确识别过渡子模块。当将随机噪声添加到分类单元81至120 时,NetMoss方法在区分过渡子模块方面优于其他两种方法。随后改变模拟网络上的噪声水平,发现NetMoss的曲线下面积(AUC)保持高且稳定,进一步证明了它在不同群落类型上的良好性能和一致性。当扰动发生时,微生物的连接会随着网络结构的变化而变化。与NESH和JEI不同,NetMoss算法不仅考虑了节点连接,还量化了不同模块之间的节点距离。基于这种模块移位策略,即使是网络结构的微小变化也可以检测到,因此与其他基于网络的方法相比,NetMoss方法在生物标志物的识别方面表现出很大的优势。
图3. Netmoss算法与NESH和JEI方法的比较
4. 鉴定整合结直肠癌网络中的生物标志物
为了识别与疾病相关的微生物,我们将七项结直肠癌(CRC)研究整合到病例组和对照组两个整合网络中,发现病例组和对照组之间存在很大差异)。例如,与对照组相比,病例组的放线菌门(Actinobacteria)大大减少,但厚壁菌门(Firmicutes)更丰富。这种区别表明,微生物网络中某些微生物的缺乏可能与从健康到疾病的转变有关。进一步从gutMDisorder数据库中检索到66种CRC相关微生物,发现在病例和对照网络模块中,标记微生物的连接强度均显著高于非标记微生物,表明这些标记微生物在整合网络中起着关键作用。因此,使用NetMoss方法从病例对照网络比较中确定疾病相关微生物是一种有效的策略。
随后使用66种已知的CRC相关微生物评估NetMoss方法的准确性,其中55种存在于整合的CRC数据集中。使用经典的统计测试来识别病例组和对照组之间差异丰富的微生物,并使用NetMoss评分来评估微生物在整合网络中的重要性。两种方法鉴定出的微生物中,统计检验法仅识别出32%;相比之下,NetMoss成功识别出68%,表明该基于网络的方法大大提高了识别疾病相关微生物的效率。
为了进一步探索各种方法之间的差异,使用六种不同的策略检验预测能力。NetMoss组使用基于网络的工作流程整合数据集和识别标记,其他五组使用基于丰度的方法整合数据集和识别标记,其中两个使用combat或limma进一步处理以消除批次效应。发现传统的基于丰度的方法的效率非常低,识别范围从16%到25%,并且无论是否去除批次效应,大多数CRC标记都无法识别。相比之下,NetMoss方法表现出更高的AUC,证明了其对不同批次的鲁棒性及其在大规模微生物数据整合中的优势。并且在属水平上,NetMoss在扩增子序列变体(ASV)和物种水平上的效率也较好。在CRC整合网络中,健康组和病例组之间只有17.4%的子模块发生变化,这种微小的变化无法通过其他方法识别。NetMoss算法侧重于模块移位,对不同网络之间的扰动更敏感。
图4. 三种不同方法对七项独立研究的预测能力比较
5. 在泛病微生物群研究中的应用
考虑到基于丰度和基于网络的方法在识别疾病相关微生物方面的互补作用,进一步将它们应用于其他疾病,以确定这些疾病中微生物群变化的共同特征。研究者分析了来自不同疾病公共研究的11,377个微生物群,发现与基于丰度的方法相比,NetMoss方法可以识别出更多与疾病相关的微生物。这些关键微生物表现出两种不同的模式:一些只与特定疾病相关,即疾病特异性微生物,而另一些则表现出与多种疾病的广泛关联,并且后者占所有差异微生物的大部分。例如,肠杆菌科(Enterobacteriaceae)和毛螺菌科(Lachnospiraceae)的许多属与感染和多种疾病相关(即条件致病菌),如CRC、腹泻和2型糖尿病。此外,一些研究报告了乙型肝炎病毒感染与链球菌(Streptococcus)及拟杆菌(Bacteroides)之间的强关联,这也是妊娠期糖尿病的关键微生物。尽管在病例组和对照组之间观察到一定程度的丰度差异,但大多数疾病与这些微生物之间的关联只能通过使用NetMoss来确定。
随后,研究者重点关注了公共数据集中五种最流行的疾病。关注每项研究中疾病特异性微生物和多疾病相关微生物的患病率,发现大多数生物标志物是多疾病相关的微生物。此外,与疾病特异性微生物相比,多疾病相关微生物在健康人群和疾病人群中的数量要多得多,证实了这些生物标志物在人体肠道中的重要性。
为了探讨多疾病相关微生物在疾病发展中的作用,比较了五种疾病网络结构的差异。与疾病特异性微生物相比,多疾病相关微生物的网络连接更紧密,NetMoss评分也更高。微生物网络中的这些重要作用表明它们可能成为多种疾病发展的驱动因素。为了进一步研究多种疾病之间的关联,将五个疾病网络整合到一个组合网络中。与健康对照不同,来自疾病特异性的类群在很大程度上彼此分离,多疾病相关微生物位于整合网络的中心区域。健康组和病例组之间这种相反的网络结构进一步证明了微生物相互作用网络在探索肠道微生物群对各种疾病的贡献方面的重要性。
图5. Netmoss鉴定与多种疾病相关的微生物
讨论
虽然已有一些算法和工具来解决批次效应问题,但大多数基于丰度鉴定差异细菌;在群落中,微生物经常相互作用,形成一个紧密相连的网络,来自外部的扰动可能会改变网络结构,并改变细菌之间的合作或竞争关系。因此,特定细菌的丰度无法准确描述整个生态系统的变化,难以发现从健康到疾病的变化。
在本文中,研究者将肠道菌群及它们内部的互作关系作为整体来看待,提出基于微生物互作网络的Netmoss算法,结合CRC数据,发现Netmoss在识别丰度不敏感生物标志物方面具有优势。但NetMoss仍有一些局限性,如患者否用药等状态的变化也可能影响其肠道微生物结构,导致个体间差异,这些信息通常不能从公共数据集中获得,这使得在NetMoss中难以利用这些信息。在实践中考虑详细的临床因素可以提高生物标志物识别的准确性,并可能是临床微生物组数据深度挖掘的新方向。
结语
NetMoss算法促进了从健康到疾病过渡过程中重要生物标志物的识别,并有助于我们理解人类微生物群在生态系统网络中的作用。通过基于这种基于网络的算法整合数据集,可以使不同研究之间的分歧可以大大减少,从更全面的角度阐明一些被忽略的细节,更好地指导我们预防和治疗多种疾病。
END
参考文献:
[1] Xiao Liwen, Zhang Fengyi, Zhao Fangqing. Large-scale microbiome data integration enables robust biomarker identification. Nat Comput Sci, 2022, 2: 307–316, doi: 10.1038/s43588-022-00247-8
撰写丨YR