代谢组学研究的十大误区——误区十-商家动态-资讯-生物在线

代谢组学研究的十大误区——误区十

作者:上海阿趣生物科技有限公司 2022-09-01T08:00 (访问量:2485)

代谢组学是对生物体某一特定组分所包含的所有代谢物进行定性及定量分析,并研究该代谢组在外界干预或疾病生理条件下动态变化规律的一门学科。代谢组学是一门交叉性极强的学科,我们经常讲,代谢组学是用物理学原理的设备,检测化学原理的化合物,然后通过计算统计学,分析生物学机理,最终阐述医学等各种现象,真的是相当的复杂。

百趣生物亮哥从事代谢组学检测分析工作十几年,从不懂到懂一点,也是有非常漫长的过程。然而最近看一些文章,听一些报告,和客户朋友聊一些天,发现大家对代谢组学研究依然有很多误区。故而总结这十大误区供大家讨论及参考:

误区十:OPLS-DA模型能将两组分开即表示两组之间有差异?

很多人做代谢组学数据分析,当拿到OPLS-DA模型结果时,一看两组之间分的很开(见下图),瞬间就兴奋了,这结果杠杠的。



图1. 两组之间OPLS-DA模型得分图

然而对结果的错误理解,往往是投稿被拒噩梦的源头。

当我们拿到一个分的很开的OPLS-DA模型时,切莫匆忙得出“两组之间有明显差异”的结论。因为这个模型极有可能是一个过拟合的模型。

那么如何才能判断一个OPLS-DA模型的好坏以及如何判断OPLS-DA模型是否过拟合呢?

首先我们要了解一下OPLS-DA模型的一个基本原理。

OPLS-DA(正交矫正偏最小二乘法判别分析)模型是一个有监督的机器学习方法,最早是2002年由Trygg和Wold在PLS算法基础上建立了OPLS得来。

OPLS-DA作为一个有监督的模型,意味着模型使用了两组分类信息作为分类的Y变量,也就是说模型事先知道哪些样品是哪组的,然后开始建模,其第一主成分(也叫预测主成分)呈现的是两组之间的差异信息。其第二主成分呈现的是同组内的差异信息,故而我们看到的图大概率都是能分得很好的。

而模型的两个得分值,R2Y代表了模型的可解释性,也就是说模型中有百分之多少的信息能解释我们事先知道的分类变量Y,R2Y约接近1,说明能解释两组分类的信息越多,也就是我们说的两组之间的差异越大。同时模型自己做了一个自我交叉验证(Cross Validation),也就是我们平常说的七折交叉验证、十折交叉验证、留一法交叉验证等。通过交叉验证模型计算出一个Q2Y,以此来判断模型的可预测性。Q2Y越接近1,说明模型的可预测性越强,也就是我们说的模型越可靠。

如图1模型,其R2Y=0.909,Q2Y=0.672,说明模型的可解释很强,可预测性尚可。根据经验,Q2Y最好不要低于0.4。

为了进一步验证模型的可靠性,除了采用交叉验证这种内部验证的形式之外,我们还可以采用置换检验(permutation test)这种外部验证的方式。



图2. Permutation test(非图1的检验图)

置换检验的图到底该怎么看呢?

百趣生物亮哥来带大家看一下官方教程的解释:



总结一下就是两点:

1. 原始的R2Y和Q2Y(最右边的两个点)总是大于左边那些置换后对应的值(左边那些散点)。

2. 看截距,根据经验判断,优秀的模型R2Y的截距不超,0.3-0.4,Q2Y的截距不超过0.05(通常为负值)

在很多的实际的项目中,尤其是临床样品的检测项目,能满足两条斜线的斜率为正,且Q2Y的截距不超过0.05就很好了。所以可以看出图2的置换检验结果also good,但不是很理想,有一定的过拟合,要警惕结果的假阳性。

总结一下,OPLS-DA模型不能只看得分图能不能分开,而是要看R2Y和Q2Y的得分值以及外部检验的结果是否通过。可以说,写文章时如果只秀能分开的得分图,不展示得分值和检验结果,那是赤裸裸的耍流氓。

文章转载自知乎@亮哥聊代谢组学

上海阿趣生物科技有限公司 商家主页

地 址: 嘉定区新培路51号焦点梦想园5层

联系人: 高小姐

电 话: 400-664-9912

传 真:

Email:marketing@biotree.cn

相关咨询

全球首发|糖基化修饰代谢组学重磅上市,抢占研究先机,冲击高分文章 (暂无发布时间 浏览数:757)

New Phytol.(IF=8.1)|安农大宋传奎教授团队最新研究刷新认知!甜菜碱竟能“解锁”茶树抗寒密码? (2025-07-30T00:00 浏览数:1553)

IF=6.2!中科院茶叶研究所林智团队突破性成果:非靶向特定修饰代谢组学首次系统解析植物糖基化代谢物 (暂无发布时间 浏览数:1605)

会议预告 | 百趣生物诚邀您参加2025中国植物生理与植物分子生物学学会 (暂无发布时间 浏览数:3088)

Metabolism (IF=11.9)|中国药科大学团队:线粒体“泄漏”为脑缺血帮凶,揭示神经酰胺介导的mtDNA炎症机制! (暂无发布时间 浏览数:3671)

Food Res Int. (IF=8.0)|合工大徐宝才教授团队破解细胞级抗衰密码:家禽血“变身”超级抗氧化剂 (暂无发布时间 浏览数:3296)

Food Chem. (IF=9.8)重磅发文|上海农科院团队揭示黄桃从“青草味”到“浓郁果香”的风味转化机制 (暂无发布时间 浏览数:4320)

IF=9.2!肠乳杆菌在他汀治疗中的屏障保护与抗纤维化机制 (暂无发布时间 浏览数:5491)

磁珠富集的前分析「陷阱」:血细胞、离心与抗凝剂对血浆蛋白组学的多重干扰 (暂无发布时间 浏览数:5624)

JACS(IF=14.4)|复旦陆豪杰教授团队攻克Tn抗原检测难题:一步酶促策略如何实现糖基化位点的精准Mapping? (暂无发布时间 浏览数:5378)

ADVERTISEMENT