代谢组学相关数据库(及常用软件)

代谢组学相关数据库(及常用软件)

常用的代谢组相关数据库包括人类代谢组数据库(HMDB)、KEGG数据库、Reactome数据库等,介绍如下: 人类代谢组数据库(HMDB)是代谢组学中比较流行的数据库之一,包括人类小分子的详细信息体内发现的分子代谢物,不少于79,650个代谢物条目。 SMPDB 数据库与 HMDB 链接,包含大约 700 条人类代谢和疾病途径的途径图。 KEGG数据库是流行的代谢组数据库之一,包含代谢途径和相互作用网络的信息。 Reactome数据库主要收集人体主要代谢途径和重要反应的信息。 MassBank数据库主要收集许多高分辨率低代谢成分的光谱。

BioCyc 数据库包含途径和基因组数据。 METLIN 数据库是一个商业代谢组和串联质谱数据库,包含约 43,000 种代谢物和 22,000 个 MS/MS 谱图。 FiehnLib 数据库是一个商业代谢组数据库,包含约 1000 个保守代谢物的 EI 谱。

NIST/EPA/NIH 质谱库数据库也是一个商业代谢组数据库,包含超过 190,000 个 EI 谱图。 BioCyc 数据库收集途径和基因组数据,并且免费提供。 MetaCyc 数据库全面收集了许多不同生物体的代谢途径和酶的信息,包括 51,000 多篇文章。 MMCD数据库收集了10,000多种代谢物的信息及其MS和NMR数据,其中大部分是拟南芥代谢物。

代谢组学数据的统计分析方法和策略

代谢组学数据的统计分析方法和策略

代谢组学数据的统计分析方法和策略

获得代谢组学数据后,需要利用软件读取并分析原始数据的信息,以确定原始数据中所含代谢成分的组成和含量。有许多统计软件可以读取和分析核磁共振谱和质谱数据。 XCMS 是一款常用的免费软件,用于读取和分析质谱原始数据。类似的常用软件还有MZmine2、MetAlign、MathDAMP、LCMStats等。

一旦获得代谢物组成和含量,就可以对这些数据进行统计分析。常用的分析方法包括主成分分析(PCA)、偏最小二乘回归、聚类分析、差异表达分析等。结果还可以利用上述数据库进行功能和通路富集分析。

代谢组学与组学数据整合

代谢组学与其他组学数据整合

如何更好地整合各种组学数据仍然是生物界面临的重大挑战,有时还面临不完善的实验设计和不同实验平台数据的整合。常用的方法有代谢途径水平分析、生物网络分析、经验相关分析等。有些软件或网站提供整合多个组学数据的即用型分析。例如,代谢途径富集分析包括:IMPaLA网站,使用来自11个数据库的3000多个代谢途径的信息,可用于整合多个组学分析;另外还有iPEAP软件、MetaboAnalyst网站等,可以提供代谢途径富集分析。提供生物网络分析包括:SAMNetWeb网站、可提供腹肌通路分析以及转录组和蛋白质组的网络分析; pwOmics包,是一个R软件包,可以根据随时间变化的转录组和蛋白质组信息构建网络;类似的软件还有MetaMapR(R包,带用户界面)、MetScape(Cytoscape插件)、Grinn(R包)等。可以进行经验相关性分析:WGCNA(R软件包),可以基于相关性和网络拓扑来整合和分析多种组学数据;其他 R 软件包包括 MixOmic、DiffCorr、qpgraph 和巨大。类似的软件还有MetaMapR(R包,带用户界面)、MetScape(Cytoscape插件)、Grinn(R包)等。可以进行经验相关性分析:WGCNA(R软件包),可以基于相关性和网络拓扑来整合和分析多种组学数据;其他 R 软件包包括 MixOmic、DiffCorr、qpgraph 和巨大。类似的软件还有MetaMapR(R包,带用户界面)、MetScape(Cytoscape插件)、Grinn(R包)等。可以进行经验相关性分析:WGCNA(R软件包),可以基于相关性和网络拓扑来整合和分析多种组学数据;其他 R 软件包包括 MixOmic、DiffCorr、qpgraph 和巨大。

靶向和非靶向代谢组分析技术区别

靶向和非靶向代谢组分析技术区别

代谢组学是生物体内生化反应的集合,是生命维持生命的物质基础,是研究生命活动的重要基础。代谢组学是基于高通量分析和生物信息学技术,研究生命在内、外环境影响下的内源代谢活动,包括代谢物的类型、数量和变化的检测和分析,从而研究集体生命。活动发生和发展的本质。

代谢物是生物过程的最终产物,其状态变化可以准确反映细胞功能的变化。研究表明,包括癌症在内的多种疾病,如肝病、肾病、心血管和神经系统疾病等,都与细胞内代谢状态变化引起的生理紊乱或细胞功能丧失有关。代谢组学已成为后基因组学时代功能基因组学的研究工具,大规模筛选新生物标志物用于疾病早期预测、诊断和分型的重要手段,以及精准医疗的重要技术手段之一。

代谢组学优势

代谢物种类和数量的变化易于检测;
与基因组学、蛋白质组学相比,技术手段更简单;
与基因组学和蛋白质组学相比,代谢物数量少,易于检测、验证和分析;
代谢水平的变化可以实时揭示机体的生理和病理状态。

代谢组学分类

根据研究目的不同,代谢组学又可分为非靶向代谢组学和靶向代谢组学。

非靶向代谢组学是指利用LC-MS、GC-MS、NMR技术对所有小分子代谢物(主要是细胞、组织、器官或生物体中刺激或扰动前后)进行公正的检测。通过生物信息学分析筛选相对分子质量小于1000Da的内源性小分子化合物的动态变化,并进行差异代谢物的通路分析,揭示其变化的生理机制。

靶向代谢组学是对特定类别代谢物的研究和分析。两者各有优缺点,常联合使用用于差异代谢物的发现和定量,以及对后续代谢分子标志物的深入研究和分析,应用于食品鉴定、疾病研究、动物模型验证等和生物标志物发现。在疾病诊断、药物研发、药物筛选、药物评价、临床研究、植物代谢研究、微生物代谢研究等方面发挥着重要作用。
代谢组学应用方向

1.生物样品中复杂代谢物的检测。
2. 寻找疾病的生物标志物。
3. 标记验证和绝对定量研究。
4.研究代谢途径的机制。

靶向代谢组学和非靶向代谢组
学之间的区别

靶向:关注目标代谢物,通常基于通路
非靶向:发现差异代谢物并寻找生物标志物

定性定量
靶向:定性定量同时进行,可检测浓度
非靶向:可定性,相对定量

方法
针对性:需要先购买标准品,进行方法学验证,然后进行测试,成本较高
非针对性:直接进样即可分析,成本相对较低

代谢组平台比较

非靶向代谢组学常用LC/MS、GC/MS、NMR三种检测方法,优缺点如下:

1、NMR(核磁共振)
优点是对样品无损,测量无偏差,即适用于血液、尿液等液体样品,也适用于固体样品如组织器官,测量速度快,可实现样本代谢组的动态监测。缺点主要是分辨率较低。

2、GC-MS(气相色谱法)
GC-MS是一种代谢组学研究技术,具有技术成熟稳定、分辨率高的特点。同时,由于数据库比较完整,质量也较好。缺点主要是样品处理复杂、衍生化困难。对物质进行表征和定量比较困难,影响了该技术在更大范围内的使用。

3、LC-MS(液相色谱)
优点主要表现在样品制备和预处理简单、实验重复性好、分辨率高、分离分析范围宽。

非靶向代谢组分析技术

代谢组学通常需要使用多种分析技术来满足不同的实验需求。常见的代谢组分析技术包括核磁共振(NMR)、液相色谱-质谱(LC-MS)、气相色谱-质谱(GC-MS)、毛细管电泳-质谱(CD-MS)、HILIC-MS等在。高分辨率质谱技术主要包括TOF-MS、FTICR-MS、Orbitrap-MS、Sector-MS等。

1. GC-MS(气相色谱)是代谢组学研究中的经典技术。具有技术成熟稳定、分辨率高的特点。同时,由于数据库比较完整,质量也更加准确。缺点主要是在样本上。加工过程复杂,且不易衍生化的物质难以表征和定量,影响了该技术在更大范围的应用。

2、LC-MS(液相色谱)的优点主要表现在样品制备和预处理简单、实验重复性好、分辨率高、分离分析范围广。

数据分析

数据预处理:使用XCMS、MZmine、MarkerView等工具进行原始数据处理。
差异代谢物的鉴定:常见的分析方法包括主成分分析(PCA)、偏最小二乘判别分析(PLS-DA)和正交偏最小二乘判别分析(OPLS-DA)。数据分析结果还需要通过t检验和投影变量重要性(VIP)值来筛选差异代谢物。一般认为同时满足P<0.05且vip>1.0的变量为差异代谢物。
代谢通路分析:常见的代谢组通路数据库包括HMDB、KEGG、Reactome、BioCyc、MetaCyc等数据库,可用于代谢通路和相互作用网络分析。
多组学分析:多组学分析已经是组学发现的趋势。可用的数据库和工具包括 IMPaLA 网站、iPEAP 软件、MetaboAnalyst 网站、SAMNetWeb 网站、pwOMICS、MetaMapR、MetScape、Grinn、WGCNA、MixOmic、DiffCorr、qpgraph、巨大等。

关于样品

1. 微生物和细胞样品:快速灭活代谢活性(猝灭),同时防止细胞裂解
2. 动物体液(如尿液、血液、组织、器官、唾液):采样后应迅速进行前处理,如添加抗凝剂和防腐剂,立即冷冻(-80℃)
3.植物样品:采集后快速冷冻(液氮),然后转至-80℃保存,200mg/箱
4.血清样品:500ul/箱(不少于200ul/箱),必须避免反复冻融。 (将血液收集于离心管中,静置30分钟使其凝固,然后离心取上清液装入干净的离心管中,然后8000rpm离心5分钟。-80℃冷冻保存送货。)
5、尿液样本:1ml/箱,原则上可以多取一点(尿液直接装入离心管,每管1ml,加一滴(约10ul)1/100(w/v)叠氮hua钠,冷冻-80℃)
6、瘤胃液:1ml/箱,原则上可以多取一点。收集步骤:瘤胃液6000×g离心15min,取上清液,等分,-80℃冷冻,干冰送样。为了使样品保持更长时间,可在取样后加入一滴(约10μl)1/100质量体积(w/v)叠氮hua钠溶液。

生物标志物的组学应用

生物标志物的组学应用

生物标志物是一类可以客观评价的特征性生化指标,通过其测量可以了解生物体的生物学过程。检查疾病的特定生物标志物可以在疾病的诊断和预防中发挥关键作用。

在医学研究领域,生物标志物的研究思路一般分为三个阶段:Discovery、Verification、Validation。生物标志物的筛选通常需要利用高通量组学方法对大规模临床样本进行代谢组学或蛋白质组学测试,筛选出具有统计学意义的差异代谢物或蛋白质,再经过一系列复杂的生物信息学分析筛选出目标生物标志物。在接下来的验证阶段,需要对较小范围的生物标志物进行靶向蛋白质组学或靶向代谢组学的大样本量验证,统计分析,计算靶标标志物的特异性和敏感性。如果你想让自己的研究成果更加完整,还可以使用临床样本,结合临床数据进行补充验证,如ELISA、WB等。

2017年,德国格赖夫斯瓦尔德大学在《Gut》杂志(IF=17.016)上发表的题为“Metabolic biomarkersignaturetoDifferentpancreaticductaladenocarcinomafromchronicpancreatitis”的研究就是利用代谢组学技术确定生物标志物的典型例子。

临床上,胰腺癌是预后最差的恶性肿瘤之一。慢性胰腺炎是胰腺癌的危险因素,临床上很难区分两者,很容易导致早期胰腺癌的误诊和延误治疗。由于原始标记物效果不佳,这一系列事实促使研究人员努力寻找替代生物标记物。

在这项研究中,总共招募了914名受试者,包括胰腺导管腺癌(PDAC,271名)、慢性胰腺炎(CP,282名)、肝硬化(LC,100名)和健康献血者(BDs)以及261名对照样本术前患有非胰腺疾病的患者,利用LC-MS和GC-MS包括脂质组学(非靶向分析/类固醇/脂质)在内的多个代谢组学平台对914例样本进行了检测。采用三阶段生物标志物开发策略(探索集/训练集/测试集)总共鉴定了 477 种代谢物。

最后,根据代谢组学数据的结果发现了九种潜在的生物标志物。这9种代谢物与现有的胰腺癌诊断血液指标CA19-9结合使用,组合的标志物组甚至可以检测98%的生物标志物。胰腺癌切除准确率达90.4%。组合标志物的 AUC 显着高于 CA19-9 的 AUC(0.94 vs. 0.85,p <0.001)、敏感性(89.9% vs. 74.7%,p <0.01)和特异性(91.3% vs. 77.5%, p <0.05)也显着改善。

不仅是代谢组学,在一些疾病生物标志物的研究中,蛋白质组学的应用也越来越广泛。多组学技术的应用已是大势所趋。接下来,我们通过另一个研究实例向大家介绍多组学技术在生物标志物筛选过程中的作用。

德国格赖夫斯瓦尔德大学2017年的一项研究结果发表在《BMC Medicine》杂志上(IF=8.097)。标题为“实验性人类甲状腺毒症模型的血浆蛋白质组和代谢组特征”。研究人员旨在筛选表征人血浆促甲状腺激素(TSH)和游离甲状腺素(FT4)特征的生物标志物。利用甲状腺毒症模型进行研究,并通过随机森林的两阶段交叉程序,验证筛选的生物标志物是否可以区分甲状腺功能异常。

根据代谢组和蛋白质组数据统计,共鉴定出380种代谢物和497种人类蛋白质。为保证数据的可用性,通过过滤分析,仅选择缺失值小于40%的代谢物和蛋白质进行后续分析。也就是说,下一步将分析 349 种代谢物和 437 种蛋白质。

为了寻找新的生物标志物来对TH状态进行分类,研究人员通过两阶段交叉验证程序建立了随机森林分类器,以全面分析差异代谢物和差异蛋白。最终获得了包括代谢物和蛋白质在内的15种物质。 30次验证结果均表现出稳定且良好的分类能力,可作为潜在的Biomarker。