单细胞测序在生物医学研究领域空前火爆,重磅研究硕果频出,而高昂的价格和复杂的实验流程使得这项技术较难普及。
单细胞测序的流程包括样本制备、单细胞文库构建、文库测序及生信分析四个部分。其中单细胞文库构建及生信分析是单细胞测序中两个最关键步骤,决定了能否获得高质量结果以及研究人员能否从原始数据提取出正确的生物信息。
达普生物自主开发了单细胞测序全流程解决方案 —— Galaxy 星海单细胞建库系统、 星海单细胞 3' 转录组测序建库试剂盒及 StarScope 生信分析软件,其中 StarScope 生信软件即是用于测序后生信分析的工具。利用 StarScope 软件获得的数据报告可兼容用于后期个性化分析的免费开放软件如 R 包、cellxgene 等,完整解决从细胞到生信数据报告的全流程处理!
下面就让我们一起来了解一下达普生物自主研发的 StarScope 生信分析软件吧!
StarScope 是达普生物自主开发的,其基于 STARsolo 和 Seurat 的 nextflow pipeline, 提供一站式的单细胞 RNA-seq 分析方案,可完成从原始的 reads 到细胞基因表达矩阵输出,并生成一个完整的 HTML 格式数据报告,表达结果还可接入多种下游分析。
▉ 软件功能:
3‘-RNA-seq pipeline
• 通过 cutadapt 对原始 reads 进行过滤和质控,将低质量碱基和 N 碱基切除掉,利用 fastqc 生成包含碱基比例分布的报告,协助用户判断 library 是否异常。
• 利用 STARsolo 将过滤后的 reads map 回 reference genome,自动完成 barcode 和 UMI 序列的识别和纠正,并根据 mapping 结果生成 feature-barcode 矩阵。
• 根据表达矩阵,Starcope 调用 Seurat 进行初步的细胞分群聚类,并返回每个群的 marker gene。
StarScope mkref
• 协助用户构建定制化的 reference index。用户的研究样本可能并非常规的人类或者小鼠样本,例如基因编辑后的样本或者是非模式物种,这时可以利用 StarScope mkref 创建定制化的 reference index 再进行单细胞 RNA-seq 分析。
StarScope 的报告包括多种结果参数,不仅展示细胞数量、细胞中的平均 reads 数量等关键结果,同时也输出饱和度、mapping rate、barcode reads 和 cDNA reads Q30 统计等信息,协助用户评估 library 本身的质量。另外还可 输出初始的细胞分群结果以及各群中的差异表达基因,并将原始的表达矩阵保存为 HDF5 格式(h5Seurat)便于分享。
Starcope 的输入格式非常简单,用户仅需要提供一个包含 sampleID 和 FASTQ 文件路径的 CSV 文件、白名单文件和构建好的 STAR reference index 文件即可直接运行。
sample list 文件示例如下(fastq_1 是 barcode read,fastq_2 是 cDNA read):
sample,fastq_1,fastq_2
sampleID,read1.fq.gz,/absolute/path/to/read2.fq.gz
ThudnerBio scRNA-seq 的白名单文件位于
starscope/whitelist/V2_barcode_seq_210407_concat.txt.gz,需要先解压再使用。
StarScope 软件能够构建一个和 10x cellRanger 类似的 reference index,对于人或者小鼠样本的分析,可以使用 starscope 中自带的脚本 prepare_10x_compatible_reference.sh 进行构建。如果分析其他物种,仅需准备此物种的参考基因组序列文件(FASTA)和对应的基因注释文件(GTF)就可以直接使用 mkref 命令生成 index。
使用 mkref 构建 Zebrafish reference index,需要先访问 Ensembl 网站的 Zebrafish 主页下载 FASTA 和 GTF 文件:
• 下载基因组序列 FASTA 文件
(http://jj6m.cn/TV3pK)
• 下载基因注释 GTF 文件
(http://sj0b.cn/E4WAy)
• 运行 starscope 命令如下,示例中 reference文件夹命名为 Danio_rerio.GRCz11.107_STAR。
StarScope 支持 conda 和 docker 运行环境,保证了数据分析的高重复性,达普生物提供已配置完备的 docker image 供用户使用,无需用户额外配置,也无需担心软件版本兼容性问题。
StarScope 基于 nextflow,支持多种运行环境,并可直接接入 HPC 的作业调度系统。用户可以直接使用 —— executor slurm 参数将任务提交给系统的 slurm 作业调度系统,同时也兼容 sge、pbs 等。支持完全容器化运行,并可轻松部署到云端 kubernetes。
全程自主研发,让生信分析更简单,软件具有诸多优秀性能:
易使用:Linux 系统下安装后即可使用。
多功能:质控报告、Mapping 结果、表达矩阵分析报告。
高兼容性:输出的矩阵文件,运用各种 R 包、cellxgene 等免费软件进行数据挖掘。
基于专利编码微球及微流控油包水单细胞包裹技术:
性能优:可一次性完成数百至数万个细胞的分离,基因检测灵敏度高。
上样活:1-4 通道,可灵活选择样本数及细胞数量,方便快捷。
流程活:可接驳下游流程 ,如单液滴分选。
多应用:同时兼容单细胞转录组,免疫组库和表观组试剂盒。