正文
简书R语言GO功能富集可视化,r语言数据分析及可视化案例
小程序:扫一扫查出行
【扫一扫了解最新限行尾号】
复制小程序
【扫一扫了解最新限行尾号】
复制小程序
【R语言】解决GO富集分析绘图,标签重叠问题
最近有粉丝反映说,利用clusterProfiler这个包绘制GO富集分析气泡图和柱形图的时候,发现GO条目的名字都重叠在一起了。气泡图 柱形图 这个图别说美观了,简直不忍直视。经过我的认真研究,发现跟R版本有关。
在是否需要构建的问题上,我看到徐洲更在 功能注释后如何做富集分析 中提到 “你不需要构建Orgdb,因为Orgdb的用途是进行基因编号和GO/KEGG的转换。
其中2个与生长素信号转导相关,而另外8个则没注释到生长素信号转导相关,简单画一下,即 好,剩下的两个就不替换了。整体上,ORA模式的富集分析,本身就是经典的抽球案例,感兴趣的自行替换就可以了。
生物富集在生物信息中有着重要的地位,做生物信息分析的时候总会遇到这样或者那样的富集分析,比如GO富集分析等。大多数情况下我们都是使用线上在线分析解决。
接下来,我就跟大家分享两种方法,可以解决这个问题。方法使用quote函数 我们来看看效果,还不错。方法使用cairo_pdf来创建pdf文件 同样来看看效果。效果一样杠杠的。
惊艳:近百种数据可视化工具效果展示,总有一款适合你!
1、Weka是一个能根据属性分类和集群大量数据的优秀工具,Weka不但是数据分析的强大工具,还能生成一些简单的图表。 NodeBox是OS X上创建二维图形和可视化的应用程序,你需要了解Python程序,NodeBox与Processing类似,但没有Processing的互动功能。
2、虽然D3能够提供非常花哨的互动图表,但你在选择数据可视化工具时,需要牢记的一点是:知道在何时保持简洁。Visual.ly如果你需要制作信息图而不仅仅是数据可视化,目前也有大把的工具可用。Visual.ly就是最流行的一个选择。
3、FineBI,这就是一款非常适合使用的数据可视化软件工具,也是国内很多企业都会使用的。
4、数据可视化与信息图形、信息可视化、科学可视化以及统计图形密切相关。当前,在研究、教学和开发领域,数据可视化乃是一个极为活跃而又关键的方面。
5、成熟的BI工具如 FineBI (国内)和 Tableau(国外),都很推荐。tableau可视化探索分析很赞,数据量多的时候性能较差,企业用多并发价格贵。
GO、KEGG富集分析(一)有参情况
GO富集分析原理: 有一个term注释了100个差异表达基因参与了哪个过程,注释完之后(模式生物都有现成的注释包,不用我们自己注释),计算相对于背景它是否显著集中在某条通路、某一个细胞学定位、某一种生物学功能。
KEGG指的是京都基因与基因组百科全书,通常我们使用KEGG中的pathway模块,将基因映射到某些通路上,了解基因参与生物体中的代谢过程等。
在进行生物学实验或者生物信息的学习中,都会听说KEGG富集分析,而且该方法在高通量测序分析中已然成为数据分析中必不可少的一环。
R语言可视化及作图8--坐标轴自定义和坐标系转换
首先,打开arctoolbox数据管理工具。然后,找到投影和变换,选择创建自定义坐标变换。点进去后,在窗口中输入相应的参数,如下图所示,有对应的七参数,和转换坐标系。
R语言作图时,默认情况下软件会按照自己的方式对坐标轴的项目进行排序,然而这种排序往往不是我们所希望的,因此需要想办法让坐标轴的项目按照我们希望的顺序输出。
tick.ratio表示次要刻度线相对于主刻度线的大小比例。
ggplot2默认是直角坐标系。- coord_cartesian()常用的其它坐标系:以mpg数据集为例,坐标轴翻转。
在R语言底层作图中,对坐标轴的调整主要通过调整plot函数、axis函数和title函数的一系列参数完成。
R语言:clusterProfiler进行GO富集分析和Gene_ID转换
对于没有转换的gene ID,clusterProfiler也提供了 bitr 方法进行转换ID:可以看到,这里转换ID的对应文件来源于org.Hs.eg.db这个包。
)检查结果,可见geneID展示为gene symbol。(1)在enrichGO函数中,设置readable = TRUE;(2)用setReadable函数,对GO或者KEGG结果进行转化即可。
你可以直接导入基因号和GO/KEGG编号的对应关系到R里面,然后用clusterProfiler进行数据分析” 。在如何构建的问题上,网上也有许多文章进行了介绍。构建 OrgDb 时,需要 gene_info 和 gene2go 。
火山图基因差异表达怎么制作r语言
X轴代表log2(FC);Y轴代表-log10(q value),灰色代表无差异基因,红色代表上调基因,绿色代表下调基因。X轴的取值可以是FC,也可以是log2处理后的值。
火山图可反映总体基因的表达情况,横坐标代表log2(Fold Change),纵坐标表示-log10(P值),每个点代表一个基因,颜色用以区分基因是否差异表达,图中橙色的点代表差异表达基因,蓝色的点代表没有差异表达的基因。
接下来通过该示例文件,展示使用R语言绘制差异基因表达“对称散点图”过程。首先对数据做一些预处理。
经过表达定量后,我们已经得到了基因的表达量矩阵,差异表达分析通常是RNA-seq分析的第一步。差异基因表达分析通常都是在R中,常用的有DESeq2,edgeR,limma等几种,这次主要介绍用DESeq2来进行差异表达分析。
用ggplot2是可以完美作图的,但我还不能随心所欲的用ggplot2去作图。在Google上搜索了火山图的方法和教程,结合留学生的数据尝试了一下。另外在Biostar上发现了有人推荐一个 EnhancedVolcano 包来做火山图。
关于简书R语言GO功能富集可视化和r语言数据分析及可视化案例的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。