核糖核酸 RNA (Ribonucleic acid) 是细胞结构的生物体遗传信息发挥作用的中间载体,从而在生命研究和应用中具有重要意义。RNA 的功能与其结构密切相关,许多功能的实现都需要借助其结构的改变来实现。
1、RNA 物理结构
核糖核酸(RNA,Ribonucleic Acid),一种在真核生物的细胞核、细胞质、线粒体以及病毒中发现的遗传信息载体,在遗传、调控和基因表达等过程中发挥着重要的生物学作用[25]。RNA 可以两类:一类是可以翻译成蛋白质的编码 RNA,如 mRNA 需要翻译成蛋白质来发挥其生物学功能;另外一类是不能翻译成蛋白质的非编码 RNA,如tRNA、r RNA、microRNA 和 lncRNA 等,这些分子在 RNA 的水平上即可发挥其生物学功能。
RNA分类及作用
三种常见的RNA
1、mRNA 信使RNA 功能:蛋白质合成的直接模板。
2、tRNA 转运RNA 功能:氨基酸的运载体。
3、rRNA 核糖体RNA 功能:核糖体的组成成分,蛋白质的合成场所。
其他小分子RNA
1、hnRNA 核内不均一RNA 成熟mRNA的前提。
2、snRNA 核内小RNA 参与hnRNA的剪接与转运
3、snoRNA 核仁小RNA rRNA的加工与修饰。
4、scRNA/7SL-RNA 胞质小RNA 蛋白质内置为定位合成信号识别体组成成分。
5、siRNA 小的干扰RNA siRNA在RNA沉寂通道中起中心作用,是对特定信使RNA(mRNA)进行降解的指导要素。
2、RNA 的空间结构
RNA 的空间结构通常分为四级。
RNA 的一级结构
RNA 分子中的核苷酸以不同的顺序排列形成 RNA 序列,也就是 RNA 的一级结构。从计算的观点看,一级结构就是由 4 种字母 A, U, G, C 组成的字符串。其中嘧啶衍生物主要有 C(cytosine、胞嘧啶),U(uracil、尿嘧啶)和 T(thymine、胸腺嘧啶)三种;嘌呤衍生物主要有为 G(guanine、鸟嘌呤)和A(adenine、腺嘌呤)两种。鸟嘌呤 G、腺嘌呤 A 和胞嘧啶 C 为 RNA 和 DNA 所共有的碱基,而尿嘧啶 U 是 RNA 所独有的特征碱基,相对应的胸腺嘧啶 T 则为 DNA 独有
RNA 的二级结构
RNA 分子存在着许多的由互补碱基对构成的单链区结构、茎环结构,以及双链结构等各种不同组件形成的平面结构,并通过这些结构进行自我折叠运动,所构成的结构即为 RNA 的二级结构。
其中,成对碱基之间组成的双链区域形成“茎”,而不能配对的单链部分则形成“环”。因此,RNA 二级结构也被称为茎环结构(stem-loop structure)。类似于 A,U,G 和 C 四类碱基可以组成的 RNA 的一级结构,RNA 的二级结构也可以被认为由以下几个基本构件组成:单链结构、茎、发卡环、凸环、内环以及多分枝环。
单链结构
也被称为自由单链,它是 RNA 分子折叠成平面结构后两端没有形成配对的单链状结构。
茎
就是指两个不相交、等长的区域中所有的碱基都可以逆向互补配对时这些碱基对组成的集合。在 RNA 二级结构中,通常认为单个互补碱基对是不稳定的。所以,互补碱基对在一般情况下会成串出现。
发夹环
通常是由构成茎区的两个碱基串间所空出来的碱基串所形成不配对的环结构,由于其和茎区的组合形状像发卡,并由此而名。发夹环至少需要 4 个未配对的碱基组成,当数量为 5 时结构最为稳定。
内环
是 RNA 的某段茎区的两条单链上都存在着未能形成碱基对的碱基,由于碱基间作用力而形成向外突出的圆环状结构。其中,如果两条链上的未配对碱基数相等,则内环称为对称的。
凸环
是 RNA 的某段茎区的一条单链上存在着未能形成碱基对的碱基而形成的。在凸环的形成过程中,这条单链上至少存在一个自由碱基,在原则上没有数量上限。由于凸环的存在使得 RNA 二级结构的茎区可以出现弯折现象,且凸环的存在可以影响RNA 的三级结构。
多分支环
也称为多重环,通常与 RNA 分子结构中的多个茎区连接,可以看作多个茎区和环的组合。在 RNA 的二级结构中经常可以看到一个多分枝环连接四个或更多的茎区。
除了上述六种基本结构结构外,某些 RNA 结构中还存在假结结构。原则上,假结属于 RNA 三级结构的范畴,是由发夹环上碱基与发夹结构外部的非茎区的碱基互补配对形成的氢键所组成的。假结对 RNA 的功能具有重要影响,并在 RNA 参与的生命过程中起重要作用。
3、RNA 的三级结构
RNA 分子的三级是一种三维空间形式存在的高级建构,这种三维结构以 RNA二级结构为基石,除了碱基配对产生的相互作用力外,RNA 分子内部还存在主链与主链间的相互作用力、主链与碱基间的相互作用力以及孤立氢键间的相互作用力等这些相互作用力促使平面的 RNA 二级结构折叠成紧凑的空间结构,也就是 RNA 的三级结构。
例如,tRNA 的三叶草形状的二级结构在这些相互作用的影响下在空间折叠成倒 L 形。RNA 三级结构的稳定性要低于 RNA 的二级结构,其结构极易受到温度、环境等因素的影响
4、RNA 的四级结构
在 RNA 及其他生物大分子三级结构基础上,RNA 和 RNA,RNA 和 DNA,RNA和蛋白质之间通过相互作用形成的复合物,即为 RNA 的四级结构。其中,核糖体就是由 r RNA 和蛋白质组成的最为常见的 RNA 四级结构。
5、RNA 二级结构表示方法
目前,主要的 RNA 二级结构表示方法是平面图形表示、点括号表示和CT 文件表示。
平面图形表示
是利用图形、图像等方法来描述组成 RNA 序列中每个碱基的配对情况,使整个 RNA 二级结构表示的非常直观。平面图形表示法中最为简洁的为
圆点图表示法
。圆点图(弧图)就是将 RNA 的碱基依次水平的排列,将相互配对的 2 个碱基用弧线连接起来,使用圆点图可以很容易的表现出 RNA 二级结构的配对信息。
RNA二级结构平面图
是另外一种比较常见的 RNA 二级结构表示方法,在这种表示方法中RNA 序列中碱基间的配对信息一目了然,各个基本组成构件也表现的十分清楚,常常作为效果图输出。Mfold结构预测软件生成的效果图如下
螺旋区点阵图
,是指以数学坐标图的方式显示 RNA 二级结构的一种方法,设立一个数学坐标图,首先按照 RNA 的序列情况在坐标图中分别标记出横、纵坐标值,然后通过查找构成碱基配对的序列的坐标,就能把该 RNA 结构的碱基对在坐标图上施划出来;再通过一线与横、纵坐标各成 45°角的斜线,串过的全部碱基对,就可标出该 RNA 结构的茎区结构。如下图:运用这种通过坐标图形显示 RNA 结构的方面,其显示结果在应用到 RNA 二级结构的分析比较方面效果较好。
点括号表示法
也是常用的 RNA 二级结构表示方法。点括号表示法就是用点和成对的括号来表示 RNA 的二级结构信息,RNA 序列中的未产生碱基互补配对的自由碱基用“.”表示,示意图如下。而形成互补碱基对的两个碱基分别用一对“(”和“)”表示。该表示法是最常见的文本类 RNA 二级结构表示方法。
CT 文件表示
是由 Zuker 所提出的二级结构表示方法,CT 文件中包含 RNA 的核苷酸序列信息和结构信息,可以被用于计算 RNA 之间的相似性及预测其类别。在CT 文件的首行中,用一个整数 N 表示 RNA 序列的总长度,N 后面则表示自由能或 RNA名称等描述信息。除第一行外,CT 文件中包含6列数据:第1列与第 6 列是序列碱基的索引;第2列则表示 RNA 序列中各个碱基(A、U、G和C)的排列顺序;第3列、第 4 列分别表示序列中与之相邻的前一个碱基和后一个碱基的索引;第5列表示 RNA 序列中是否存在与该位置碱基形成配对碱基对的碱基,其中数字‘0’表示该位置碱基是未配对碱基,非‘0’表示该位置碱基存在配对碱基,且用数字n表示与之配对的碱基索引。部分结构预测软件可以提供 CT 文件格式的结果。
6、RNA数据库介绍
NONCODE
NONCODE科学数据库是中国科学院计算技术研究所生物信息学研究组和中国科学院生物物理研究所生物信息学实验室共同开发和维护的一个提供给科学研究人员分析非编码RNA基因的综合数据平台。
starBase
一个高通量实验数据CLIP-Seq(或称为HITS-CLIP,PAR-CLIP,iCLIP)和mRNA降解组测序数据支持的microRNA靶标数据库,包含了miRNA-mRNA,miRNA-lncRNA,miRNA-circRNA和RNA-protein等的调控关系。整合和构建多个流行的靶标预测软件的交集和调控关系。
miRbase
microRNA是基因注释数据库。miRBase数据库检索数据库发表的miRNA序列和注释。在miRBase序列数据库的每个条目代表一个预测的miRNA转录发夹部分在成熟的miRNA序列的位置和序列信息。
参考:基于卷积神经网络的RNA二级结构预测方法研究_张春鹤