MicrobiomeAnalyst 网页交互式分析微生物组数据神器



文献速递


MicrobiomeAnalyst 是一个方便易用的可视化网页的能系统全面分析微生物组学数据的分析网站。目的是为未经生物信息学系统培训的研究人员和临床医生能参考目前主流分析方法轻松挖掘微生物组学数据,包括数据预处理,统计分析,功能分析和与公开数据集或已知微生物特征进行比较。该平台目前包含标记基因数据分析 (Marker-gene Data Profiling ,MDP)、鸟枪数据分析 (Shotgun Data Profiling ,SDP)、公共数据投影 (Projection with Public Data ,PPD)和分类集群富集分析 (Taxon Set Enrichment Analysis ,TSEA)四个模块;MDP 和S DP负责分析标记基因和鸟枪法宏基因组及转录组数据,PPD 和 TSEA 负责可视化比较或者关联用户数据和公共数据库数据。一次完整的分析最快 70 分钟内完成,视数据量大小而定;下文中将描述详细的使用步骤介绍。

Keywords: MicrobiomeAnalyst,website

Title: Using MicrobiomeAnalyst for comprehensive statistical, functional, and meta-analysis of microbiome data

DOI: 10.1038/s41596-019-0264-1

Journal: Nature Protocols [IF 11.334]

First Authors: Jasmine Chong

Correspondence: Jianguo Xia

Affiliation: Institute of Parasitology, McGill University, Ste-Anne-de-Bellevue, Quebec, Canada

Published: 2020-01-15


研究背景


高通量测序技术的快速发展改变了各种环境的微生物群落的研究。本文的“微生物组”(microbiome) 是指定居于特定生物生态位的微生物,包括其基因组含量和代谢产物。现在普遍认为微生物群与宿主息息相关,如果微生物群的生态系统失衡将对宿主不利。

目前研究微生物组学的主要方法有:

(i) 标记基因调研,以获得群落微生物的概貌。

(ii) 鸟枪宏基因组学,以了解微生物组的功能潜力,

(ii) 宏转录组学,通过基因表达谱来测量其功能活性,

目前几个能通过处理原始下机数据得到特征丰度表,例如:QIIME,mothur,UPARSE, DADA2,One Codex,Kraken,MetaPhlAn;特征丰度表是下游统计分析的关键。

目前微生物组学数据处理有以下几个关键的挑战:

  • 每个样品的测序数据量(即文库大小)差异大,需要先对数据进行适当的归一化,然后才能进行有意义的统计分析;
  • 丰度表中,低丰度的分类水平非常稀疏,这种稀疏性可能是由于采样不足或实际没有该分类单元而引起的。
  • 微生物组数据是组成性的。即如果优势特征相对增加,那其他特征的相对丰度(比例)将减小,即使它们的绝对丰度保持恒定。

正由于微生物组数据具有这些特征,在处理数据时应该加以考虑,正确处理,目前,R 的 phyloseq 包提供了丰富的功能来处理特征表,分类树和元数据处理。

MicrobiomeAnalyst 因此为无需专业编程技能就能可轻松进行微生物组数据的系统综合统计分析,交互式可视化和meta分析。

其实,早在2017年,MicrobiomeAnalyst 就在Nucleic Acids Research 发表了关于该网站功能的介绍,这一篇文章更多的是教程。


研究结果


1.MicrobiomeAnalyst 的工作流

MicrobiomeAnalyst 的总体工作流程如图 1 所示。共有四个模块:MDP、SDP、PPD、TSEA。经过基本数据预处理,就数据类别进行对应的下游分析,可通过交互式对核心参数调整。MicrobiomeAnalyst 还提供了动态导航轨道和实时系统消息来指导用户完成数据准备和分析的每个步骤(图2)。并在右侧提供“结果下载”下载该页的分析结果,和“R命令历史记录”面板,该面板显示实时发生的底层 R 命令,以帮助提高微生物组数据分析的透明度,灵活性和可重复性。

图 1. MicrobiomeAnalyst 的工作流


图 2.数据分析和报告生成


2.与其他网页工具的比较

目前主流的微生物数据处理的网站有 MG-RAST、VAMPS、Calypso。

MG-RAST:用于注释和存储原始宏基因组学数据的公共资源,提供基础的统计分析和可视化,高级分析推荐 matR 包处理。

VAMPS:主要提供可视化分析,如热图,饼图和主坐标分析 (PCoA) 图等。

Calypso:支持数据处理以及微生物组数据的多样性,比较和网络分析。

与这些工具相比,MicrobiomeAnalyst 的优势有:

  • 实时可见分析过程及其具体 R 命令以提高透明度和可重复性,可轻松导航到指定数据处理步骤;
  • 分类单元富集分析是 MicrobiomeAnalyst 独有的功能;
  • 可创建输出高质量的出版发表级别的图形;

四者详细比较见表1。

3.局限性

  • MicrobiomeAnalyst 不能处理原始测序数据,由于网络和服务器成本等问题,不提供处理原始数据的功能,而专注于实时交互式数据分析,但是也提供了MicrobiomeAnalyst R 包,用户可用该包自己线下整理好丰度表在上传分析。
  • MicrobiomeAnalyst 目前只能处理横截面的数据,对于纵轴数据,时序数据正在研发。
  • 目前 MicrobiomeAnalyst 每次打开新的会话时,用户都需要重新上传并重新执行数据处理步骤。这可能会影响某些分析结果的可重复性,例如“随机森林”的分类结果或稀疏相关成分数据 (SparCC) 分析的经验 P 值,正在开发允许注册用户保存其工作并在以后的时间恢复分析。

4.分析过程

实验设计

本章节将分为 4 步,以展示 MicrobiomeAnalyst 中的所有四个模块:

1. 16S rRNA 丰度数据综合分析 (step1-30);

2. 功能预测,然后进行 KEGG(KO) 丰度表的途径富集分析和网络可视化 (step 31-49);

3. 使用公共数据集进行视觉数据挖掘 (step 50-56);

4. 分类单元富集分析 (step 57-63)。

数据文件

MicrobiomeAnalyst 输入文件主要是三类:丰度文件、分类单元文件、表型文件。接受 QIIME 和 mothur 软件输出的文件格式,也接受 BIOM 文件格式。

如果要做系统进化树分析,需要额外提供树文件。

MicrobiomeAnalyst 还提供了 3 个示例数据,数据集1 :43 个儿科炎症性肠病(IBD) 和 iHMP 健康对照的粪便样本;数据集2:21 个年长小鼠的粪便样本;数据集3:26 个北美和南美土壤环境样本。

1.16S rRNA 丰度数据综合分析 (step1-30)[对应MDP模块]

选择 Marker Data Profiling (MDP) 模块,耗时至少 30min ,视数据大小而定。

分析步骤包括:

  • 上传数据
  • 数据完整性检查
  • 数据过滤
  • 数据标准化
  • alpha 多样性
  • beta 多样性(图3)
  • 3D PCoA (图3)
  • PERMANOVA 和 NMDS 在 beta 多样性模块下选择
  • 热树分析(图4)
  • 系统进化树
  • 网络互作分析 (图5)
  • 经典单因素分析(t-tests/ANOVA)
  • 使用开发用于 RNA 序列数据分析的方法识别显著差异特征
  • LEfSe 分析(图6)
  • 用随机森林建立分类器(图7)
  • 创建和下载分析结果和报告

图3. 3D PCoA交互和beta 多样性分析。


图4. 热树显示分类差异


图5. 网络互作分析


图6. LEfSe分析


图7. 随机森林分析结果


2.功能预测,然后进行KEGG)ortholog(KO)丰度表的途径富集分析和网络可视化(step 31-49)[对应SDP模块]

这步分析先在 MDP 模块中得到功能丰度表再返回 SDP 模块做进一步分析,耗时至少 20min ,视文件大小而定。如果是需上一步分析下来就不用额外上传数据,不然还得额外上传数据。

  • PICRUSt 功能预测:对应数据库是 Greengenes (2012.05.18 版本),点击 “KO Table“下载KO profile 用于 SDP 模块。
  • Tax4Fun 功能预测:对应数据库是 SILVA。

然后返回主页面,进入 SDP 界面。

类似 MDP 模块先执行:上传数据--数据完整性检查--数据过滤--数据标准化;得到” Analysis overview” 界面

MDP 可以进行以下分析:

  • 功能多样性分析
  • 富集分析
  • KEGG全局代谢网络可视化 (Association analysis),可执行个性化定制绘制网络图,可下载定制的图片(PNG,SVG 格式)

图8. KEGG全局代谢网络可视化


3.使用公共数据集进行视觉数据探索(step 50-56)[对应PPD模块]

这步分析用 PPD 模块分析,照旧上传数据--数据完整性检查--数据过滤--数据标准化;然后依据自己项目数据特征选择对应环境的研究项目的数据--提交--PCA 交互界面,比较两个项目的物种分布差异,每一步选择的参数的结果均可下载。

4.分类单元富集分析(step 57-63)[对应TSEA模块]

这步分析用 TSEA 模块分析,这步需要你想比较的分类单元的 ID,可以是单一水平(种或株)也可以是不同层级混合水平的分类 ID ,也可以是 NCBI ID 或者 GOLD ID。上传之后,选择 mapping 的集合,目前网站囊括了:

  • 1546 个与人类遗传变异(SNP)相关的分类单元。
  • 239 个与宿主固有因素(例如年龄和疾病)相关的分类单元。
  • 118 个与宿主外在因素(例如饮食和药物)相关的分类单元。
  • 446 个与环境因素(如化学暴露和吸烟)相关的分类单元。
  • 53 个与微生物内在因素(例如微生物运动性和形状)相关的分类单元。

提交之后便得到网络关系的交互界面,当然,结果依旧能下载。


图9. TSEA 的结果


M菌 · 笔记


官网:

https://www.microbiomeanalyst.ca/

示例教程:

https://www.microbiomeanalyst.ca/MicrobiomeAnalyst/docs/Resources.xhtml

R 包:

https://github.com/xia-lab/MicrobiomeAnalystR

参考文献

Chong J, Liu P, Zhou G, et al. Using MicrobiomeAnalyst for comprehensive statistical, functional, and meta-analysis of microbiome data[J]. Nature Protocols, 2020: 1-23.



撰稿 | 三明治 责编 | NSC

本文系菌探Momics(ID:Momics)原创,欢迎个人转发分享。其他任何媒体、网站如需转载,须在正文前注明来源菌探Momics

举报
评论 0