查看原文
其他

小白生信学习记(一)· 转录组基本知识及简单的linux命令入门

2017-01-05 生物女博士 生信媛

        这是小白来到这个课题组的第一天。

        为了让小白更快融入实验室,老师让小白跟着师姐一起完成一个转录组数据的分析。

        在听完老师的介绍后,小白有点蒙。什么叫转录组测序?什么是二代测序?他快速记下关键词后,开始了网上搜索。


(一)什么叫转录组测序?

        首先,来回顾一下中心法则:


        DNA可以在转录复合体的作用下,转录成多种RNA (rRNA、lncRNA、small RNA、tRNA、mRNA等),其中mRNA后续会翻译成肽链,折叠成有功能的蛋白质。

       转录组顾名思义,就是细胞内所有转录产物的集合。而狭义的转录组测序,其实就是对mRNA进行测序和分析。


       但是,细胞里面有那么多的物质,如何单独把我们想要的这部分mRNA纯化出来呢?

       原来,真核生物mRNA在3'端具有polyA(即在3’端有很多的碱基“A”)结构特点,如图(参考资料1):


    因为A能通过氢键与T有较强的亲和性,所以,合成一条含多个T的短序列(oligo dT),把它一头固定在某种基质上,他就可以通过亲和能力(想象它像一个磁铁),把含有polyA的这部分mRNA给拉取得到。这样,我们就能富集到mRNA了。

       这时候该测序了吧?其实不是。由于RNA的化学性质不稳定,容易降解,所以在实际测序的时候,先通过体外逆转录的方法,把RNA转化成cDNA,再进行测序。


(二)什么是二代测序?

       

       二代测序曾经出现过多种测序平台,但目前可以说,illumina是一家独大。

       illumina的测序原理简单介绍如图(参考资料2):


       先把DNA打碎成一定大小的片段,然后纯化。这些纯化后的DNA片段在两端会被接上一段接头序列。紧接着,它们就被固定到一种基质上(flow cell)并且成簇(每一簇是来自同一条DNA分子),然后,把引物加上,开始测序。

        每一轮的带不同荧光的dNTP被加进去后,机器就会拍一张照片,并读取此时每个簇的荧光是什么颜色,并转换成对应的碱基(并且会告诉你这个碱基的测序质量如何),然后把这些信息存储起来。所以我们到手的序列将是这样的:



         名字:其实就是某条被测序的DNA的一个识别称号,否则,那么多序列一下子蹦出来,就天下大乱了。

         测序的DNA分子序列:就是我们想要的序列。

         第三行那个“+”是什么意思呢?单独的“+”没有什么具体含义,但其后面可以添加一些描述信息。

         第四行则是刚提到的,对应第二行碱基的质量值。根据评分体系的不同,每个字符的含义表示的数字也不相同。它是用ACSII码表示。

        有兴趣的朋友,可以自己先百度一下fastq格式,有很多文章都给出具体介绍,这里就不赘述了。

       除了二代测序,一代测序其实也广为使用。一代的特点是读长长(约800bp),而二代则是读长短(目前常见150bp左右),但通量高。而近些年的以PacBio为代表的三代测序,以读长特长(号称平均能达到10000bp,最长20000bp)的特点,在复杂基因组和一些全长转录组等方面有独特的优势。

       拿到序列之后,还需要通过许多计算方法(用软件完成),把这些序列跟基因组进行比对,看看他们属于基因组的哪个位置,这个过程我们称为mapping。再进一步分析拿到差异表达的基因。这些,我们再后续课程都会给大家详细介绍,并且带着大家用软件完成这个分析过程。 

     

 (三)Linux命令入门

        数据处理大多在Linux/unix系统下进行操作。Linux界面大概是长成这个样子的:


        为什么不做成像Windows或者Mac那样美观、友好的图形界面?为什么不弄得像office软件这么直观容易上手?

        其实Linux也是可以有图形的(但我还没用过)。

        生物信息学一般计算量很大,需要用到像服务器这样运算能力很强的设备。服务器好多都是Linux系统。Linux作为服务器有它独到的优势(参考资料3):

      1.稳定的系统;

      2.安全,漏洞快速修补:由于是开源的系统,且支持者众,因此可以随时获得安全信息和随时更新。

      3.多任务,多用户

      4.省内存。

     而命令行的操作也有许多好处。举个栗子:

      请想象这个表格向右向下无限延伸,而你的任务是,把A的1到3行,和B的1到3行做柱形图,如果只有几组数据,那么excel是可以轻松胜任的。假如,你需要如此从1到3,从4到6……如此往下,做A列和B列柱形图,那么是非常耗时费力的。此时你只要在命令行写几句代码,你就可以坐等结果了。嗯,想想是不是还有点小激动?这个以后也会教给大家。

        

        好,回到正题,今天教给大家几个最基础的linux命令:

假如已经进到你的系统,并且想知道你现在所在路径是什么,可以使用“pwd”来看看:

pwd

小白想新建一个自己的目录(文件夹)并命名为“xiaobai”方便以后工作:“mkdir”

mkdir xiaobai

新建文件夹后,他想进入这个目录,再新建一个叫work的目录:

cd xiaobai

mkdir work

这个时候,他想看看目录里有什么东西(当然暂时是什么都没有):ls

ls

他于是返回上一层目录

cd ..

再次查看xiaobai目录下有什么:(请仔细看一下跟之前提到的ls有什么差异呢?)

ls -l 

他突然觉得work这个名字自己不喜欢,想更改一下,变成my_work

mv work my_work

改完以后,善变的小白还是觉得不满意,暂时想删掉:

rm my_work

 

是不是很简单?好了,今天就先到这里吧。

想尝试更多学习:http://www.personal.psu.edu/iua1/courses/2014-BMMB-852.html

 

这次的作业:

1.安装一个linux双系统或者虚拟机

2.开始玩耍上面的简单linux命令


参考资料


1.《高通量测序与大数据分析》(诺禾致源科技服务部 编著)

2. illumina的测序原理:illumina官网

3.《鸟哥的Linux私房菜·基础学习篇(第三版)》

上述部分资料可在我的云盘下载:http://url.cn/43MSAoR



       文章篇幅有限,难以面面俱到。故需读者依据自己需求自行深入学习。有不懂之处可后台联系我们,讲尽力予以解答,并视情况,挑选有代表性问题进行详细讲解。

       初步打算如此,如有建议和疑问欢迎联系,让我们一起把这个系列变得更好更有助于大家入门!

       写作过程中难免有疏漏错误之处。恳请包容与指出问题所在,不胜感激!


欢迎关注,欢迎转发~


 


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存