百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

三维基因组: SELFISH 差异分析

moboyou 2025-05-16 17:49 35 浏览

引言

本系列主要讲解 3D-Genome (Hi-C) 系列的分析,主要涉及三维基因组分析中的数据处理,重复性评估,Compartment/TAD/Loop 检测,差异分析等,欢迎关注!

SELFISH

SELFISH[1] 是一款用于检测 Hi-C 矩阵间差异相互作用的软件,支持 MATLAB 和 Python。

原理

基于矩阵间局部自相似性原理。如果矩阵 A 和 B 之间,基因组 bin_i 和 j 的相互作用接触频率存在显著差异,那么这种差异在该相互作用周围的像素(即“影响半径”)内仍会显著。为了降低远离测试相互作用的相互作用的影响,会以 i, j 为中心,对影响半径施加一个逐渐增大的高斯滤波器。同时,由于基因组位点的线性邻近性和布朗运动,大多数相互作用发生在矩阵对角线附近,因此会根据与对角线的接近程度对相互作用进行归一化处理。最终,每个相互作用用一组向量表示,这些向量包含其邻近相互作用在不同影响半径下的频率,而这组向量的一阶导数将用于检测矩阵 A 和 B 之间的差异。

Example

本文讨论的 SELFISH 的 Python 版本是一个命令行工具,可接受 .hic、. cool 和 HiC-Pro 矩阵作为输入。它输出的文件格式有两种:一种是 numpy 格式的差异相互作用概率 p 值矩阵;另一种是更易读的制表符分隔文件,其中包含两个差异相互作用 bin 的起始坐标、p 值以及差异相互作用的对数变化倍数(logFC)。

SELFISH 的运行命令如下:

selfish -f1 HiC_Rep1.hic -f2 HiC_Rep1.hic -ch chr2 -r 5kb -o SELFISH_chr2_5kb_D00vsD15.tsv -t 0.05

在这里,-f1 和 -f2 是需要分析的矩阵,-ch 和 -r 是从 .hic 文件中提取的染色体和分辨率,-t 参数用于指定输出结果为制表符分隔文件,同时设置记录结果的 p 值阈值(此处设定得较为宽松,<0.05,后续可以对结果进行进一步筛选),而 -o 参数则用于指定结果文件的路径和文件名。尽管可以通过参数 -p 绘制每个染色体的差异相互作用图,但对于分辨率更高的分析(例如,bin 尺寸小于 50 kb),强烈不推荐使用此选项。

在将结果转换为 R 中的 .bedpe 格式后,SELFISH 的结果可以在 JuiceBox 中轻松可视化:

# R version 3.6.2

options(scipen=999)

bin.size <- 5000
pval_threshold <- 0.01
logFC_threshold <- 1
chrs <- c("chr1","chr2","chr3","chr4","chr5","chr6","chr7","chr8","chr9","chr10","chr11","chr12","chr13","chr14","chr15","chr16","chr17","chr18","chr19","chr20","chr21","chr22","chrX")
all_interactions <- NULL

for (chr in chrs) {
    print(chr)
    diffInts <- read.table(paste("SELFISH", chr, "D00vsD15_5kb.tsv",sep="_"), sep= "\t", header= T, stringsAsFactors= F)
    diffInts_filtered <- diffInts[diffInts$P_VAL < pval_threshold & (diffInts$LOG_FOLD_CHANGE > logFC_threshold | diffInts$LOG_FOLD_CHANGE < -(logFC_threshold)),]
    Nrow <- nrow(diffInts_filtered)
    diffInts_filtered_bedpe <- data.frame(
    "chr1"= rep(chr, Nrow),
    "chr1_bin_start"= diffInts_filtered$LOC1, "chr1_bin_end"= diffInts_fil-
    tered$LOC1 + bin.size,
    "chr2"= rep(chr, Nrow),
    "chr2_bin_start"= diffInts_filtered$LOC2,
    "chr2_bin_end"= diffInts_filtered$LOC2 + bin.size,
    "name"= rep(".", Nrow),
    "score"= rep(".", Nrow),
    "strand1"= rep(".", Nrow),
    "strand2"= rep(".", Nrow),
    "color"= rep("0,255,255", Nrow),
    "p_value"= diffInts_filtered$P_VAL,
    "logFC"= diffInts_filtered$LOG_FOLD_CHANGE, stringsAsFactors=F)
    all_interactions <- rbind(all_interactions, diffInts_filtered_bedpe, stringsAsFactors=F)
}

all_interactions_noEmpty <- all_interactions[!is.na(all_interactions$p_value),]

# RGB color code for dark blue
all_interactions_noEmpty[all_interactions_noEmpty$logFC>0,11] <- "0,0,139" 

# RGB color code for orange
all_interactions_noEmpty[all_interactions_noEmpty$logFC<0,11] <- "255,140,0" 

write.table(all_interactions_noEmpty, "SELFISH_D00vsD15_5kb.bedpe", sep= "\t", col.names= F, row.names= F, quote=F)

在这个过程中,通过 bin. size 设置分辨率,并利用 pval_threshold 和 logFC_threshold 来确定 p 值和 logFC 的阈值,以便筛选出符合条件的相互作用。使用 read. table 函数读取 SELFISH 输出的 .tsv 文件,然后根据设定的 p 值阈值(<0.01)和对数变化倍数阈值(logFC >1 或 < -1)对相互作用列表进行筛选。为了使结果符合 .bedpe 格式,还添加了名称、得分、strand1、strand2 和相互作用颜色列。最后,根据对数变化倍数的正负,调整相互作用的颜色,并通过 write. table 函数将筛选后的差异相互作用以 .bedpe 格式保存到一个制表符分隔文件中。根据这些阈值,SELFISH 在染色体 2 上共发现了 169,703 个差异相互作用。

[1]Github: https://github.com/ucrbioinfo/Selfish

相关推荐

Excel技巧:SHEETSNA函数一键提取所有工作表名称批量生产目录

首先介绍一下此函数:SHEETSNAME函数用于获取工作表的名称,有三个可选参数。语法:=SHEETSNAME([参照区域],[结果方向],[工作表范围])(参照区域,可选。给出参照,只返回参照单元格...

Excel HOUR函数:“小时”提取器_excel+hour函数提取器怎么用

一、函数概述HOUR函数是Excel中用于提取时间值小时部分的日期时间函数,返回0(12:00AM)到23(11:00PM)之间的整数。该函数在时间数据分析、考勤统计、日程安排等场景中应用广泛。语...

Filter+Search信息管理不再难|多条件|模糊查找|Excel函数应用

原创版权所有介绍一个信息管理系统,要求可以实现:多条件、模糊查找,手动输入的内容能去空格。先看效果,如下图动画演示这样的一个效果要怎样实现呢?本文所用函数有Filter和Search。先用filter...

FILTER函数介绍及经典用法12:FILTER+切片器的应用

EXCEL函数技巧:FILTER经典用法12。FILTER+切片器制作筛选按钮。FILTER的函数的经典用法12是用FILTER的函数和切片器制作一个筛选按钮。像左边的原始数据,右边想要制作一...

office办公应用网站推荐_office办公软件大全

以下是针对Office办公应用(Word/Excel/PPT等)的免费学习网站推荐,涵盖官方教程、综合平台及垂直领域资源,适合不同学习需求:一、官方权威资源1.微软Office官方培训...

WPS/Excel职场办公最常用的60个函数大全(含卡片),效率翻倍!

办公最常用的60个函数大全:从入门到精通,效率翻倍!在职场中,WPS/Excel几乎是每个人都离不开的工具,而函数则是其灵魂。掌握常用的函数,不仅能大幅提升工作效率,还能让你在数据处理、报表分析、自动...

收藏|查找神器Xlookup全集|一篇就够|Excel函数|图解教程

原创版权所有全程图解,方便阅读,内容比较多,请先收藏!Xlookup是Vlookup的升级函数,解决了Vlookup的所有缺点,可以完全取代Vlookup,学完本文后你将可以应对所有的查找难题,内容...

批量查询快递总耗时?用Excel这个公式,自动计算揽收到签收天数

批量查询快递总耗时?用Excel这个公式,自动计算揽收到签收天数在电商运营、物流对账等工作中,经常需要统计快递“揽收到签收”的耗时——比如判断某快递公司是否符合“3天内送达”的服务承...

Excel函数公式教程(490个实例详解)

Excel函数公式教程(490个实例详解)管理层的财务人员为什么那么厉害?就是因为他们精通excel技能!财务人员在日常工作中,经常会用到Excel财务函数公式,比如财务报表分析、工资核算、库存管理等...

Excel(WPS表格)Tocol函数应用技巧案例解读,建议收藏备用!

工作中,经常需要从多个单元格区域中提取唯一值,如体育赛事报名信息中提取唯一的参赛者信息等,此时如果复制粘贴然后去重,效率就会很低。如果能合理利用Tocol函数,将会极大地提高工作效率。一、功能及语法结...

Excel中的SCAN函数公式,把计算过程理清,你就会了

Excel新版本里面,除了出现非常好用的xlookup,Filter公式之外,还更新一批自定义函数,可以像写代码一样写公式其中SCAN函数公式,也非常强大,它是一个循环函数,今天来了解这个函数公式的计...

Excel(WPS表格)中多列去重就用Tocol+Unique组合函数,简单高效

在数据的分析和处理中,“去重”一直是绕不开的话题,如果单列去重,可以使用Unique函数完成,如果多列去重,如下图:从数据信息中可以看到,每位参赛者参加了多项运动,如果想知道去重后的参赛者有多少人,该...

Excel(WPS表格)函数Groupby,聚合统计,快速提高效率!

在前期的内容中,我们讲了很多的统计函数,如Sum系列、Average系列、Count系列、Rank系列等等……但如果用一个函数实现类似数据透视表的功能,就必须用Groupby函数,按指定字段进行聚合汇...

Excel新版本,IFS函数公式,太强大了!

我们举一个工作实例,现在需要计算业务员的奖励数据,右边是公司的奖励标准:在新版本的函数公式出来之前,我们需要使用IF函数公式来解决1、IF函数公式IF函数公式由三个参数组成,IF(判断条件,对的时候返...

Excel不用函数公式数据透视表,1秒完成多列项目汇总统计

如何将这里的多组数据进行汇总统计?每组数据当中一列是不同菜品,另一列就是该菜品的销售数量。如何进行汇总统计得到所有的菜品销售数量的求和、技术、平均、最大、最小值等数据?不用函数公式和数据透视表,一秒就...