结合你提到的 ChIPBase、TRRUST、StarBase 数据库 及 Cytoscape 可视化需求,以下是从“获取hub基因的TF调控关系→获取miRNA调控关系→构建并可视化网络”的详细操作步骤,每个环节均包含数据库操作细节、筛选标准和工具使用方法,确保可复现:
一、前期准备:明确核心信息与工具
在开始前需确认2个关键前提,避免后续操作偏差:
- hub基因信息确认:需明确你研究中的hub基因列表(如你提到的“12个/5个hub基因”),确保基因名为 人类官方标准名(HGNC符号)(例如MYC、TP53、SOX2等),避免使用别名(如“c-Myc”需统一为“MYC”);
-
工具与数据库准备:
- 数据库:ChIPBase 3.0(https://rnasysu.***/chipbase3/protein.php)、TRRUST v2(https://www.grnpedia.org/trrust/)、StarBase v3.0(https://starbase.sysu.edu.***/);
- 软件:Cytoscape 3.9及以上版本(免费下载,用于网络可视化,需提前安装“***work Analyzer”插件,便于后续节点属性分析);
- 辅助工具:Excel(用于整理调控关系数据,格式为“源节点-靶节点-关系类型”)。
二、第一步:构建mRNA-TF调控网络(对应Fig23A)
核心目标:通过 ChIPBase(优先,含ChIP-seq实验证据)+ TRRUST(补充,含文献验证的TF-target关系),获取调控hub基因的TF,最终整理为可导入Cytoscape的网络数据。
1. 从ChIPBase获取“TF→hub基因”的调控关系(实验证据优先)
ChIPBase的优势是整合了海量人类ChIP-seq数据,能提供“TF直接结合hub基因启动子”的实验证据,步骤如下:
-
Step 1:进入ChIPBase“TF Target”检索页面
打开ChIPBase官网(https://rnasysu.***/chipbase3/protein.php),点击顶部导航栏“TF Target”→选择“Target Gene”检索模式(即通过“靶基因(hub基因)”找调控它的TF)。 -
Step 2:输入hub基因,设置筛选条件
- 在“Gene Symbol”框中输入1个hub基因(如“MYC”),若需批量检索,可点击“Batch Input”,按格式(一行一个基因名)粘贴所有hub基因;
- 物种选择“Human”(人类);
-
关键筛选条件(提高数据可靠性):
- “Data Source”:勾选“ChIP-seq”(仅保留有ChIP-seq实验证据的关系,排除预测数据);
- “Cell Line/Tissue”:若你的研究聚焦特定组织(如你之前关注的前列腺癌),可输入“prostate”或具体细胞系(如“LNCaP”“PC-3”),筛选前列腺相关的TF-target关系;若无特定组织,可保留默认(全组织);
- “P-value”:设置≤0.05(部分数据集提供P值,筛选显著结合的TF)。
-
Step 3:导出与整理ChIPBase结果
点击“Search”后,结果页面会显示“调控该hub基因的TF列表”,包含以下关键信息:- TF名称(如“SOX2”“AR”);
- 结合位点(hub基因启动子区域的具体位置,如“chr8:126725000-126725500”);
- 支持的ChIP-seq数据集编号(如“GSE123456”,可追溯原始实验);
- 点击“Download”导出结果(选择“CSV格式”),用Excel打开,保留“TF_Symbol”“Target_Gene”“Cell_Line”“Data_Source”4列,删除重复行(同一TF-target对在不同细胞系中出现多次,可保留前列腺相关或支持数据集最多的)。
-
Step 4:用TRRUST补充文献验证的TF-target关系
ChIPBase可能遗漏部分“仅文献报道、无ChIP-seq数据”的关键关系,需用TRRUST补充:- 打开TRRUST官网(https://www.grnpedia.org/trrust/),选择“Human”物种,在“Search by Target Gene”框中输入1个hub基因(如“MYC”);
- 结果页面会显示“调控该hub基因的TF及文献证据”,包含“TF名称”“调控方向(激活/抑制)”“参考文献PMID”;
- 导出结果(点击“Export”→“CSV”),筛选“调控方向明确”且“参考文献≥1篇”的关系,补充到ChIPBase的TF列表中,避免重复(若TRRUST的TF已在ChIPBase中出现,优先保留有ChIP-seq证据的)。
-
Step 5:最终筛选“mRNA-TF调控对”
按你提到的“12个/5个hub基因+23个TF”需求,整理所有调控对:- 确保每个hub基因至少对应1个TF(避免孤立节点);
- 排除“无实验/文献证据”的弱关联(如仅ChIPBase预测、无ChIP-seq数据的TF);
- 用Excel整理为“源节点(TF)-靶节点(hub基因,mRNA)-关系类型(激活/抑制,若已知)”的表格(示例如下):
| 源节点(Source) | 靶节点(Target) | 关系类型(Interaction) | 证据来源(Evidence) |
|---|---|---|---|
| SOX2 | MYC | 激活 | ChIP-seq(GSE104786) |
| AR | TP53 | 抑制 | TRRUST(PMID:29132337) |
| … | … | … | … |
2. 用Cytoscape可视化“mRNA-TF调控网络”(Fig23A)
打开Cytoscape,按以下步骤构建网络并设置样式(匹配你提到的“橙色为mRNA,紫色为TF”):
-
Step 1:导入调控关系数据
- 点击Cytoscape顶部“File”→“Import”→“***work from File”,选择整理好的Excel表格;
- 在“Import Settings”中,设置“Source Column”为“源节点(Source)”,“Target Column”为“靶节点(Target)”,“Interaction Type Column”为“关系类型(Interaction)”,点击“OK”,生成初始网络。
-
Step 2:定义节点类型与颜色
- 点击左侧“Node Table”,添加新列“Node Type”(类型:String);
- 筛选“Node Name”为hub基因的行,在“Node Type”列填写“mRNA”;筛选“Node Name”为TF的行,填写“TF”;
- 点击顶部“Style”→“Node”→“Fill Color”,点击右侧“Mapping”按钮(小箭头),选择“Column: Node Type”→“Discrete Mapping”;
- 为“mRNA”分配“橙色”(如#FFA500),为“TF”分配“紫色”(如#9370DB),点击“Apply”,节点颜色即按类型区分。
-
Step 3:优化网络布局与标签
- 选择顶部“Layout”→“Force-directed Layout”(力导向布局,使节点分布均匀,避免重叠);若节点较多,可选择“Circular Layout”(环形布局,突出中心节点);
- 显示节点标签:点击“Style”→“Node”→“Label”,选择“Column: Node Name”,调整“Font Size”为10-12,确保标签清晰;
- 调整边的样式:若已知“激活/抑制”关系,可在“Edge Table”中添加“Edge Type”列,为“激活”设置“实线”,“抑制”设置“虚线”,在“Style”→“Edge”→“Line Style”中映射对应样式。
-
Step 4:导出网络图片(Fig23A)
点击“File”→“Export”→“***work to Image”,选择格式(PNG/JPEG/EMF,建议300dpi高清格式),命名为“Fig23A_mRNA-TF_***work”,保存即可。
三、第二步:构建mRNA-miRNA调控网络(对应Fig23B)
核心目标:通过 StarBase数据库 获取“靶向hub基因的miRNA”(优先实验验证的关系),整理后用Cytoscape可视化(匹配“橙色为mRNA,蓝色为miRNA”)。
1. 从StarBase获取“miRNA→hub基因”的调控关系
StarBase的优势是整合了miRNA-target的多类实验证据(如CLIP-seq、双荧光素酶实验),步骤如下:
-
Step 1:进入StarBase“miRNA-Target”检索页面
打开StarBase官网(https://starbase.sysu.edu.***/),点击顶部“miRNA-target”→选择“Target Gene”检索模式(通过“靶基因(hub基因)”找靶向它的miRNA)。 -
Step 2:输入hub基因,设置高可信度筛选条件
- 物种选择“Human”,在“Gene Symbol”框中输入1个hub基因(如“MYC”),批量检索可点击“Batch Query”粘贴所有hub基因;
-
关键筛选条件(按你提到的“2个hub基因+28个miRNA”需求,确保关系可靠):
- “Validation Method”:勾选“CLIP-seq”(交叉链接免疫沉淀测序,直接证明miRNA与mRNA结合)和“Luciferase Assay”(双荧光素酶实验,验证调控关系),排除仅生物信息学预测的关系;
- “miRNA Type”:选择“hsa-miRNA”(人类miRNA,避免其他物种干扰);
- “Pan-Cancer”:若研究癌症(如前列腺癌),可勾选“Pan-Cancer”,筛选在癌症中高关联的miRNA-target对;
- “Expression Correlation”:选择“Negative”(miRNA与mRNA表达负相关,符合miRNA抑制mRNA的经典机制,若StarBase提供该数据)。
-
Step 3:导出与整理StarBase结果
点击“Search”后,结果页面显示“靶向该hub基因的miRNA列表”,包含:- miRNA名称(如“hsa-miR-145-5p”“hsa-miR-21-3p”);
- 验证方法(如“CLIP-seq(3 datasets)+ Luciferase(1 dataset)”);
- 结合位点(mRNA的3’UTR区域位置);
- 点击“Download”导出CSV格式结果,用Excel打开,保留“miRNA_Symbol”“Target_Gene”“Validation_Method”“Expression_Correlation”4列,删除重复行(同一miRNA-target对在不同验证方法中出现,保留证据最多的)。
-
Step 4:最终筛选“mRNA-miRNA调控对”
按“2个hub基因+28个miRNA”需求整理:- 确保每个hub基因对应多个miRNA(如2个hub基因各对应14个miRNA,共28个);
- 优先保留“验证方法≥2种”(如同时有CLIP-seq和Luciferase证据)的miRNA;
- 用Excel整理为“源节点(miRNA)-靶节点(hub基因,mRNA)-关系类型(抑制,miRNA默认抑制mRNA)-证据来源”的表格(示例如下):
| 源节点(Source) | 靶节点(Target) | 关系类型(Interaction) | 证据来源(Evidence) |
|---|---|---|---|
| hsa-miR-145-5p | MYC | 抑制 | CLIP-seq + Luciferase(PMID:28765123) |
| hsa-miR-21-3p | TP53 | 抑制 | CLIP-seq(GSE112264) |
| … | … | … | … |
2. 用Cytoscape可视化“mRNA-miRNA调控网络”(Fig23B)
操作逻辑与mRNA-TF网络一致,重点调整节点颜色(蓝色为miRNA):
-
Step 1:导入miRNA-mRNA调控数据
重复“mRNA-TF网络”的导入步骤,选择整理好的miRNA-mRNA表格,设置“Source Column”为“源节点(miRNA)”,“Target Column”为“靶节点(mRNA)”。 -
Step 2:定义节点类型与颜色
- 在“Node Table”添加“Node Type”列,为miRNA节点填写“miRNA”,hub基因节点填写“mRNA”;
- 在“Style”→“Node”→“Fill Color”中,为“miRNA”分配“蓝色”(如#4169E1),“mRNA”仍为“橙色”(#FFA500),保持与Fig23A的mRNA颜色一致,便于对比。
-
Step 3:优化布局与导出
- 选择“Force-directed Layout”或“Hierarchical Layout”(层级布局,将mRNA放在中心,miRNA围绕周围);
- 调整节点标签和边的样式(miRNA名称较长,可将“Font Size”设为9,避免重叠);
- 导出图片,命名为“Fig23B_mRNA-miRNA_***work”,确保与Fig23A的格式、分辨率一致。
四、第三步:补充表格(Table S4、Table S5)
按你提到的“具体信息见Table S4、Table S5”,需整理以下2个补充表格,用于论文补充材料:
-
Table S4:mRNA-TF调控关系详细信息
包含列:TF名称、hub基因(mRNA)名称、调控方向(激活/抑制)、证据类型(ChIP-seq/TRRUST文献)、支持数据集编号/PMID、结合位点(染色体位置,若有); -
Table S5:mRNA-miRNA调控关系详细信息
包含列:miRNA名称、hub基因(mRNA)名称、调控方向(抑制)、验证方法(CLIP-seq/Luciferase)、支持数据集编号/PMID、结合区域(mRNA的3’UTR位置)、表达相关性(正/负,若有)。
表格需按“基因名首字母排序”,便于读者检索,且标注“证据等级”(如“强证据:≥2种实验验证;中等证据:1种实验验证”)。
关键注意事项
- 证据优先级:始终优先选择“实验证据(ChIP-seq、CLIP-seq、双荧光素酶)”>“文献验证(TRRUST)”>“生物信息学预测”,避免假阳性调控关系;
- 节点一致性:确保hub基因在Fig23A和Fig23B中的名称、颜色完全一致(如均为“MYC”+橙色),便于读者关联两个网络;
- 可复现性:在论文方法部分明确标注数据库版本(如ChIPBase 3.0、StarBase v3.0)、筛选条件(如“ChIP-seq数据P≤0.05”)和Cytoscape插件/布局参数,便于其他研究者复现。
通过以上步骤,即可完成“mRNA-TF→mRNA-miRNA”的分网络构建与可视化,且符合你提到的“节点数量、颜色定义、补充表格”要求,后续若需整合为完整的“TF-miRNA-mRNA网络”,可将两个网络的hub基因作为“桥梁”,进一步关联TF与miRNA的调控关系(参考之前提到的“TF-miRNA预测”步骤)。
您好!您提供的这段文字描述了一篇研究论文中构建基因调控网络的标准生物信息学分析流程。下面我将为您详细拆解并解释每一个步骤,以及如何结合您提到的数据库(ChIPBase, TRRUST, StarBase)和工具(Cytoscape)来完成它。
整体流程概述
该流程主要分为两个大部分:
- 构建mRNA-TF调控网络:使用 ChIPBase 和 TRRUST 数据库找出调控hub基因的转录因子(TF)。
- 构建mRNA-miRNA调控网络:使用 StarBase 数据库找出与hub基因相互作用的miRNA。
最终使用 Cytoscape 软件将两个网络可视化。
第一部分:构建mRNA-TF调控网络 (Fig23A)
目标:找到能与你手中的5个或12个hub基因相结合的转录因子(TF),并构建网络。
详细步骤:
步骤一:确定hub基因列表
• 您需要有一个明确的hub基因列表,例如:GeneA, GeneB, GeneC, GeneD, GeneE。这是所有分析的起点。
步骤二:使用ChIPBase数据库查询
• 访问数据库:打开ChIPBase数据库 (链接2)。
• 核心功能:ChIPBase主要整合了海量的ChIP-seq实验数据,告诉你哪个转录因子(TF)在什么细胞条件下结合在了哪个基因的调控区域(如启动子区)。
• 操作流程:
1. 选择参数:
▪ Clade(进化枝): 选择 Mammal(哺乳动物)。
▪ Organism(物种): 选择 Human 或 Mouse(根据你的研究对象)。
▪ Assembly(基因组版本): 选择相应的最新版本,如 hg38(人类)或 mm10(小鼠)。
▪ Factor type(因子类型): 选择 Protein factor(蛋白因子)。
▪ Protein factor/modification: 这里是最关键的一步。你可以逐个选择你感兴趣的TF,但更高效的方法是浏览所有因子与你的hub基因的关系。通常,你需要换一个查询思路。
2. 更实用的方法——使用“Target Genes”模块:
▪ 许多数据库提供“按基因查询”的功能。你需要在ChIPBase网站上寻找类似 “Search by Target Gene” 或 “Browse by Gene” 的选项卡或入口。
▪ 在这个功能下,输入你的一个hub基因名(例如 GeneA)。
▪ 数据库会返回一个列表,显示所有在ChIP-seq实验中被证实能结合到GeneA调控区域的转录因子(TF),以及对应的实验证据(细胞系、组织等)。
3. 记录结果:
▪ 对每一个hub基因都执行上述查询。
▪ 将结果整理成一个表格,至少包含三列:Hub Gene(靶基因), TF(转录因子), Evidence(来源数据库/实验证据)。这就是您Table S4的雏形。
步骤三:使用TRRUST数据库进行验证和补充
• 访问数据库:打开TRRUST数据库 (链接1)。
• 核心功能:TRRUST是一个手动 curated 的数据库,它通过文本挖掘和人工审核,记录已知的TF->靶基因的调控关系(不仅是结合,还知道是激活还是抑制)。
• 操作流程:
1. 在TRRUST的搜索框中,直接输入你的hub基因名。
2. 搜索结果会列出所有已知的调控该基因的TF(Regulatory TF)和该基因所调控的下游靶基因(Target Gene)。你这里需要的是前者。
3. 与ChIPBase结果交叉验证:TRRUST提供的TF-Target关系有更强的功能指向性(激活/抑制),而ChIPBase提供的是物理结合证据。两者结合,能让你筛选出既结合又调控的TF,使你的网络更可靠。
4. 补充新TF:将TRRUST中找到的、但ChIPBase里没有的TF也加入到你的列表中。
步骤四:整合数据并构建网络文件
• 现在你有一个包含多行记录的列表,格式如下:
Hub Gene TF Database
GeneA TF1 ChIPBase
GeneA TF2 TRRUST
GeneB TF1 Both
… … …
• 为了在Cytoscape中可视化,你需要创建两个文件:
1. 节点文件 (Node Table):
▪ 列出网络中所有的节点(即所有出现的hub基因和所有TF)。
▪ 包含一列:NodeName(节点名称)。
▪ 可以添加一列:Type(节点类型,例如 hub_gene 或 TF)。这用于在Cytoscape中设置不同的颜色(橙色和紫色)。
2. 边文件 (Edge Table / Interaction File):
▪ 列出所有的关系(即哪两个节点相连)。
▪ 包含两列:Source(源节点,通常是TF), Target(目标节点,通常是hub基因)。
第二部分:构建mRNA-miRNA调控网络 (Fig23B)
目标:找到能与你手中的hub基因相互作用的miRNA,并构建网络。
详细步骤:
步骤一:使用StarBase数据库查询
• 访问数据库:访问 http://starbase.sysu.edu.***/。
• 核心功能:StarBase专门用于挖掘CLIP-seq数据,预测miRNA与靶基因(mRNA)之间的相互作用,数据质量很高。
• 操作流程:
1. 在首页选择 miRNA-Target 模块。
2. 在 Target 选项卡下,选择物种(如Human)。
3. 在 Gene Symbol 框中,输入你的一个hub基因名。
4. 可以选择预测算法(如TargetScan, miRanda等)和严格程度(通常默认即可)。
5. 点击搜索,数据库会返回一个列表,显示所有可能靶向该hub基因的miRNA。
6. 数据库通常会提供相互作用的置信度,你可以根据CLIP Data(如PAR-CLIP, HITS-CLIP等支持的数量)和degradome Data支持来筛选高可信度的结果。
步骤二:记录结果
• 对每一个hub基因都执行上述查询。
• 将结果整理成一个表格,至少包含三列:miRNA, Target Gene(即hub基因), Evidence(例如Pan-CLIP支持数)。这就是您Table S5的雏形。
步骤三:整合数据并构建网络文件
• 同样,创建用于Cytoscape的两个文件:
1. 节点文件:列出所有节点(hub基因和miRNA),并标注Type(hub_gene 或 miRNA)。
2. 边文件:列出所有的关系,Source(源节点,这里是miRNA), Target(目标节点,这里是hub基因)。
第三部分:使用Cytoscape软件进行可视化
步骤一:导入网络文件
• 打开Cytoscape。
• 选择 File -> Import -> ***work from File,选择你准备好的边文件(Edge Table)。软件会自动识别源节点和目标节点,并创建网络图和节点列表。
步骤二:导入节点属性
• 选择 File -> Import -> Table from File,选择你准备好的节点文件(Node Table)。
• 在弹窗中,确保将NodeName列与网络图中已存在的节点正确映射(Key Column for ***work)。
• 这样,Type属性就会成功导入,每个节点都会有自己的类型标签。
步骤三:美化网络(根据Fig11描述)
-
颜色:
◦ 选中所有节点,在右侧的Style面板中,为Fill Color属性设置映射规则。◦ 映射依据(Column)选择 Type。
◦ 根据Type的值设置颜色:hub_gene -> 橙色, TF -> 紫色, miRNA -> 蓝色。
-
布局:
◦ 顶部菜单选择 Layout,尝试不同的布局算法以使网络结构清晰,如 Circular Layout(环状布局), Force-Directed Layout(力导向布局,非常常用,节点会自动排斥,边像弹簧一样吸引,形成美观的疏密结构)。 -
标签:
◦ 在 Style 面板中,将 Label 的映射依据设置为 Name,这样每个节点就会显示其名称。◦ 可以调整字体大小和位置。
步骤四:导出图片
• 调整至满意后,选择 File -> Export -> ***work to Image,选择格式(如PDF, PNG, JPEG),设置高分辨率(如300 dpi或更高用于出版),导出最终图片(Fig23A和Fig23B)。
总结与注意事项
- 数据库组合使用:ChIPBase(结合证据) + TRRUST(功能证据)是构建TF-靶基因网络的强大组合,能提高结果的可靠性。
- 数据筛选:从数据库中得到的结果可能非常多,一定要根据实验证据的强度(如ChIP-seq的peak强度,CLIP-seq的reads数)和预测分数进行筛选,只保留高可信度的相互作用,否则网络会过于复杂且噪音很大。
- 基因标识符:确保你使用的基因名在所有数据库和你的分析中都是统一的(如官方Symbol),避免因名称不匹配导致的数据丢失。
- Cytoscape学习:Cytoscape功能强大,学习曲线较陡。建议预先学习一些基础教程,了解如何导入数据、设置样式和调整布局。
希望这个详细的步骤分解能帮助您顺利完成您的分析!