百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

三维基因组: SELFISH 差异分析

moboyou 2025-05-16 17:49 3 浏览

引言

本系列主要讲解 3D-Genome (Hi-C) 系列的分析,主要涉及三维基因组分析中的数据处理,重复性评估,Compartment/TAD/Loop 检测,差异分析等,欢迎关注!

SELFISH

SELFISH[1] 是一款用于检测 Hi-C 矩阵间差异相互作用的软件,支持 MATLAB 和 Python。

原理

基于矩阵间局部自相似性原理。如果矩阵 A 和 B 之间,基因组 bin_i 和 j 的相互作用接触频率存在显著差异,那么这种差异在该相互作用周围的像素(即“影响半径”)内仍会显著。为了降低远离测试相互作用的相互作用的影响,会以 i, j 为中心,对影响半径施加一个逐渐增大的高斯滤波器。同时,由于基因组位点的线性邻近性和布朗运动,大多数相互作用发生在矩阵对角线附近,因此会根据与对角线的接近程度对相互作用进行归一化处理。最终,每个相互作用用一组向量表示,这些向量包含其邻近相互作用在不同影响半径下的频率,而这组向量的一阶导数将用于检测矩阵 A 和 B 之间的差异。

Example

本文讨论的 SELFISH 的 Python 版本是一个命令行工具,可接受 .hic、. cool 和 HiC-Pro 矩阵作为输入。它输出的文件格式有两种:一种是 numpy 格式的差异相互作用概率 p 值矩阵;另一种是更易读的制表符分隔文件,其中包含两个差异相互作用 bin 的起始坐标、p 值以及差异相互作用的对数变化倍数(logFC)。

SELFISH 的运行命令如下:

selfish -f1 HiC_Rep1.hic -f2 HiC_Rep1.hic -ch chr2 -r 5kb -o SELFISH_chr2_5kb_D00vsD15.tsv -t 0.05

在这里,-f1 和 -f2 是需要分析的矩阵,-ch 和 -r 是从 .hic 文件中提取的染色体和分辨率,-t 参数用于指定输出结果为制表符分隔文件,同时设置记录结果的 p 值阈值(此处设定得较为宽松,<0.05,后续可以对结果进行进一步筛选),而 -o 参数则用于指定结果文件的路径和文件名。尽管可以通过参数 -p 绘制每个染色体的差异相互作用图,但对于分辨率更高的分析(例如,bin 尺寸小于 50 kb),强烈不推荐使用此选项。

在将结果转换为 R 中的 .bedpe 格式后,SELFISH 的结果可以在 JuiceBox 中轻松可视化:

# R version 3.6.2

options(scipen=999)

bin.size <- 5000
pval_threshold <- 0.01
logFC_threshold <- 1
chrs <- c("chr1","chr2","chr3","chr4","chr5","chr6","chr7","chr8","chr9","chr10","chr11","chr12","chr13","chr14","chr15","chr16","chr17","chr18","chr19","chr20","chr21","chr22","chrX")
all_interactions <- NULL

for (chr in chrs) {
    print(chr)
    diffInts <- read.table(paste("SELFISH", chr, "D00vsD15_5kb.tsv",sep="_"), sep= "\t", header= T, stringsAsFactors= F)
    diffInts_filtered <- diffInts[diffInts$P_VAL < pval_threshold & (diffInts$LOG_FOLD_CHANGE > logFC_threshold | diffInts$LOG_FOLD_CHANGE < -(logFC_threshold)),]
    Nrow <- nrow(diffInts_filtered)
    diffInts_filtered_bedpe <- data.frame(
    "chr1"= rep(chr, Nrow),
    "chr1_bin_start"= diffInts_filtered$LOC1, "chr1_bin_end"= diffInts_fil-
    tered$LOC1 + bin.size,
    "chr2"= rep(chr, Nrow),
    "chr2_bin_start"= diffInts_filtered$LOC2,
    "chr2_bin_end"= diffInts_filtered$LOC2 + bin.size,
    "name"= rep(".", Nrow),
    "score"= rep(".", Nrow),
    "strand1"= rep(".", Nrow),
    "strand2"= rep(".", Nrow),
    "color"= rep("0,255,255", Nrow),
    "p_value"= diffInts_filtered$P_VAL,
    "logFC"= diffInts_filtered$LOG_FOLD_CHANGE, stringsAsFactors=F)
    all_interactions <- rbind(all_interactions, diffInts_filtered_bedpe, stringsAsFactors=F)
}

all_interactions_noEmpty <- all_interactions[!is.na(all_interactions$p_value),]

# RGB color code for dark blue
all_interactions_noEmpty[all_interactions_noEmpty$logFC>0,11] <- "0,0,139" 

# RGB color code for orange
all_interactions_noEmpty[all_interactions_noEmpty$logFC<0,11] <- "255,140,0" 

write.table(all_interactions_noEmpty, "SELFISH_D00vsD15_5kb.bedpe", sep= "\t", col.names= F, row.names= F, quote=F)

在这个过程中,通过 bin. size 设置分辨率,并利用 pval_threshold 和 logFC_threshold 来确定 p 值和 logFC 的阈值,以便筛选出符合条件的相互作用。使用 read. table 函数读取 SELFISH 输出的 .tsv 文件,然后根据设定的 p 值阈值(<0.01)和对数变化倍数阈值(logFC >1 或 < -1)对相互作用列表进行筛选。为了使结果符合 .bedpe 格式,还添加了名称、得分、strand1、strand2 和相互作用颜色列。最后,根据对数变化倍数的正负,调整相互作用的颜色,并通过 write. table 函数将筛选后的差异相互作用以 .bedpe 格式保存到一个制表符分隔文件中。根据这些阈值,SELFISH 在染色体 2 上共发现了 169,703 个差异相互作用。

[1]Github: https://github.com/ucrbioinfo/Selfish

相关推荐

一种直扩MSK信号的二维联合捕获方法

袁美娟,蒋芸茹,施镇峰,孙红磊,鲍昱蒙,蔡雨琦(南京理工大学电子工程与光电技术学院,江苏南京210094)摘要:针对直扩MSK信号的特殊性以及高动态环境下载波多普勒频偏对伪码捕获的影响,提出了一...

基于动态分块阈值与双重VAD检测的时频域自适应去噪算法

基于动态分块阈值与双重VAD检测的时频域自适应去噪算法(MATLAB)动态分块阈值:采用SURE准则优化块尺寸与阈值双重VAD检测:粗精两级语音活动检测提升噪声估计精度时频域自适应:结合IMCRA噪声...

JECE审稿意见太狠如何回复?

期刊关键参数ISSN2213-1388|IF=5.2|Q1区版面费2200美元|年发文1200+结构化应对框架回复信三要素:1.致谢+总结改进(例:"感谢指出模型验证不足,已补充三组对比实...

三维基因组: SELFISH 差异分析

引言本系列主要讲解3D-Genome(Hi-C)系列的分析,主要涉及三维基因组分析中的数据处理,重复性评估,Compartment/TAD/Loop检测,差异分析等,欢迎关注!SELFISHS...

电力EI会议,高录用技巧公开!

【推荐会议】IEEE电力与能源协会年会(PESGM)会议号:IEEEConference#PE-2026截稿时间:2026年1月15日举办时间与地点:2026年7月26日-30日·美国丹...

浅谈船舶交流电网在线绝缘监测装置研究

摘要:针对船舶供电系统电缆的绝缘状态问题,设计了一款电缆绝缘在线监测装置。装置采用低频交流注入法,在IT系统的中心点注入低频的交流信号,通过取样电路和A/D量化检测注入信号在电路中的响应,采用FIR滤...

使用Simulink学习STM32-(1)点亮一颗LED实验

本次实验系统环境Matlab版本:2021b系统环境:Win10专业版硬件平台:YF-STM32-ALPHA1R4模型与原理图simulink模型如图5.1所示,实验现象为PB8以0.5S周期反...

利用Proteus仿真STM32实现DHT11温湿度检测

1.前言Proteus是英国著名的EDA工具(仿真软件),从原理图布图、代码调试到单片机与外围电路协同仿真,一键切换到PCB设计,真正实现了从概念到产品的完整设计。是世界上唯一将电路仿真软件、PC...

使用ADSP-CM408F ADC控制器的电机控制反馈采样时序

简介本应用笔记介绍ADSP-CM408F模数转换器控制器(ADCC)模块的主要特性,重点讨论该产品在高性能电机控制应用的电流反馈系统中的相关性与可用性。本应用笔记的目的是为了强调模数转换器(DAC)模...

基于DSP的主动降噪系统设计与实现

摘要:针对发动机等工作时产生的周期噪声,进行主动降噪系统设计与实现。主要工作为降噪程序的设计和基于DSP的硬件实现。其中降噪程序采用自适应算法中的反馈滤波-X-最小均方算法,对此算法进行了简要讲解...

怎样消除薄膜收放卷上的静电

》收放卷常见静电危害!收放卷应用贯穿所有行业,无论是塑料薄膜、纸张、还是纺织品。而在快速收放卷的过程中,物料与辊之间会产生大量的摩擦、剥离、挤压,使物体表面积聚不同电性的静电荷,且随速度增加和时长增加...

电力EI会议,这些刊慎投!

推荐优质会议:ICPEET2025(电力工程与智能技术国际会议)会议号:IEEE-CPS#0123截稿时间:2025年4月30日召开时间/地点:2025年8月15-17日·成都论文集上...

电工布线现场工程图,简直就是手工艺术品展览

今天我们就来分享一波电工布线图,简直是一道道手工艺术品展览!电工布线是被很多人忽略的一个项目,其实这也是个技术活,因地制宜地设计布线方案、而且要同时注重美观和实用,同时要求具有一定的可扩展性。更多电工...

基于FPGA的伪随机序列发生器设计

基于FPGA的伪随机序列发生器设计1基本概念与应用1)LFSR:线性反馈移位寄存器(linearfeedbackshiftregister,LFSR)是指给定前一状态的输出,将该输出的线性...

五种算法(DBO、LO、SWO、COA、LSO、KOA、GRO)路径规划MATLAB

五种算法(DBO、LO、SWO、COA、LSO、KOA、GRO)求解无人机路径规划MATLAB