人新基因EOLA1生物信息学分析
2011年2月28日 09:17 作者:刘月明,刘战立 刘漪沦,许雪峰,张萍,马随着人类基因组计划和越来越多的真核生物基因组完成,现代基因工程学已经步入了后基因组时代[1]。研究的热点从基因测序转移到基因功能表达与调控。近年来可用的基因序列与结构信息的指数级增长,生物信息学领域,或称之为计算生物学(computational biology)领域在基础生物医学领域起着越来越大的作用[2]。生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信息的获取、处理、存储、分配和解释。基因组信息学的关键是“读懂”基因组的核苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行药物设计[3?4]。了解基因表达的调控机理也是生物信息学的重要内容,根据生物分子在基因调控中的作用,描述人类疾病的诊断、治疗内在规律。它的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”,解释生命的遗传语言。生物信息学已成为整个生命科学发展的重要组成部分[5?6]。人类对基因的认识,将从以往的对单个基因的了解,上升到在整个基因组水平上考察基因的组织结构和信息结构,考察基因之间在位置、结构和功能上的相互关系[7?8]。研究生论文发表
近来的研究表明,基因组不仅是基因的简单排列,它有其特有的组织结构和信息结构,这种结构是在长期的演化过程中产生的,也是基因发挥其功能所必须的。弄清楚生物体基因组特有的组织结构和信息结构是解译生命遗传语言的关键。Oti等[9]对疾病的潜在基因进行预测和优先排序,对不同的生物信息学策略进行了总结,并列举了一些有用的网络工具和生物信息学方法,为研究疾病相关基因提供了范例。EOLA1是本课题组于2002年应用抑制消减杂交技术发现的人类新基因[10],本研究中我们基于EOLA1全长cDNA序列,应用目前比较成熟的生物信息学分析方法对EOLA1基因从以下几个方面对其进行比较详细的生物信息学分析:①序列比对;②EOLA1在人类染色体上的定位;③EOLA1结构分析;④编码蛋白理化性质分析;⑤编码蛋白的蛋白质位点和序列模式预测。
1 材料与方法
1.1 序列比对
http://www.ncbi.nlm.nih.gov/BLAST/,输入EOLA1的全长序列,应用BLAST工具进行比对分析。对于比对计算产生的分值,用统计学方法加以说明,以了解比对结果是否具有统计学意义。相关的参数E代表随机比对分值不低于实际比对分值的概率。对于严格的比对,E值必须低于一定阈值才能说明比对的结果具有足够的统计学意义,排除了由于偶然的因素产生高比对得分的可能[11]。
1.2 EOLA1在人染色体上的定位
通过基因与基因组重叠群的序列比对,可以快速有效地把基因定位在基因组中。以EOLA1全长序列检索GenBank数据库中的UniGene库,查找与其对应UniGene序列簇(http://www.ncbi.nlm.nih.gov/UniGene/clust.cgi),获得1个同源序列簇,再经网上辐射杂交细胞系(RH)作图系统(http://www.ncbi.nlm.nih.gov/genemap)确定EOLA1在染色体定位[12]。
1.3 EOLA1基因结构分析
登陆NCBI相应的网站分析EOLA1 cDNA序列中重复片段、编码区、启动子、内含子/外显子、转录调控因子结合位点等信息。
1.4 EOLA1编码蛋白的理化性质分析
蛋白序列分析软件包ANTHEPROT 4.3是法国的蛋白质生物与化学研究院开发出的蛋白质研究软件包。软件包包括了蛋白质研究领域所包括的大多数内容,功能非常强大。应用此软件包,使用个人电脑,便能进行各种蛋白序列分析与特性预测。我们应用该软件对EOLA1的理化性质进行了详尽的分析。
1.5 EOLA1编码蛋白的二级结构和序列模式预测研究生论文发表
二级结构是指α螺旋和β折叠等规则的蛋白质局部结构元件。不同的氨基酸残基对于形成不同的二级结构元件具有不同的倾向性。按蛋白质中二级结构的成分可以把球形蛋白分为全α蛋白、全β蛋白、α+β蛋白和α/β蛋白等4个折叠类型。预测蛋白质二级结构的算法大多以已知三维结构和二级结构的蛋白质为依据,用人工神经网络、遗传算法等技术构建预测方法[13?14]。还有将多种预测方法结合起来,获得“一致序列”。总的来说,二级结构预测仍是未能完全解决的问题,一般对于α螺旋预测精度较好,对β折叠差些,而对除α螺旋和β折叠等之外的无规则二级结构则效果很差。二级结构预测我们仍然用ANTHEPROT 4.3软件进行。对于蛋白位点和序列模式预测在http://www.expasy.ch/swissmod/SWISS?MODEL.html网站上进行。
1.6 EOLA1编码蛋白的同源性比对分析和三维结构预测
蛋白质的三维结构是蛋白质在体内发挥功能的存在形式,能够提供丰富的功能信息。本研究应用SWISS?MODEL Workspace蛋白质模建平台对EOLA1编码的蛋白质进行同源性比对分析和三维结构预测[15?16]。该平台可以提供在线分析,网址是:http:http://swissmodel.expasy.org/.根据提示,输入EOLA1氨基酸序列即可反馈同源性蛋白信息和三维结构预测结果。
2 结果
2.1 人新基因EOLA1在GenBank中的序列比对结果
http://www.ncbi.nlm.nih.gov/BLAST/,输入EOLA1的全长序列,应用BLAST工具进行比对分析,共有67条序列和EOLA1具有同源性,其中分值大于或等于200且E值小于0.01的共有14条,多为人类新mRNA或假想蛋白的编码序列(图1)。EOLA1和鼠RIKEN基因有77%的同源性,关于该基因的相关信息可以参考文献[15]。
2.2 EOLA1在人染色体上的定位
以EOLA1 cDNA序列检索GenBank数据库中的UniGene库,查找与其对应UniGene序列簇,获得1个同源UniGene序列簇UniGene Cluster Hs.82171(http://www.ncbi.nlm.nih.gov/UniGene/clust.cgi).UniGene来自于对GenBank中序列(尤其是EST)自动拼接而形成的序列簇,每一个序列簇可以代表1个唯一的基因,且经网上辐射杂交细胞系(RH)作图系统(http://www.ncbi.nlm.nih.gov/genemap)已将每个序列簇在染色体上位置作了确定,因此,UniGene将基因的染色体定位、组织表达谱和同源序列有机地整合在一起。通过比较EOLA1序列与UniGene序列簇的同源性可将其定位于染色体的相应位置,如图2所示将EOLA1定位于人染色体Xq27.4.表1 EOLA1基因的内含子大小及内含子/外显子边界以EOLA1 cDNA序列为起始,查找人X染色体,显示其从152370221~152376515跨越了6 294 bp,被内含子分割为5个外显子,见图3,其中外显子用黑框显示,内含子大小用kb显示。所有的外显子?内含子边界序列遵循AG/GT规则(表1)。研究生论文发表
图3 EOLA1基因的基因组DNA结构
Fig.3 The genome DNA structure of EOLA1
分析第一个外显子上游5′?侧翼区2 kb序列,在-704 kb~-681 kb含预测的启动子,但无典型的TATA?box结构,在该区域附近可找到几个推导的转录因子结合位点,如SP1、GATA?1、TFⅢA、GREB、Pit?1、AP?2B和NF?1.至于该区域内是否含真正转录启动子尚须进一步的实验研究。
http://www.ncbi.nlm.nih.gov/ORF,在EOLA1基因全长cDNA中找到1个完整的ORF结构,其推导的编码蛋白EOLA1一级结构由158个氨基酸组成(图4)。经同源性检索,与任何已知人类蛋白质无高度同源性。
2.4 EOLA1编码蛋白的理化性质分析
在ANTHEPROT 4.3软件的编辑页面里输入EOLA1的氨基酸序列,另存为EOLA1.seq文件。打开EOLA1.seq文件进行相应的分析。表2显示的是EOLA1各种氨基酸的含量:亮氨酸含量最高(12.65%),谷氨酸、甘氨酸、缬氨酸次之(均为8.22%),其余氨基酸含量均小于7%.EOLA1的分子量为17.89 kDa,等电点为6.43,亲水性强(-0.189)。表2 EOLA1各氨基酸残基含量
2.5 EOLA1编码蛋白的二级结构和序列模式预测
图5为ANTHEPROT 4.3软件对EOLA1蛋白二级结构的分析结果,EOLA1存在螺旋、折叠和转角等二级结构模式。H代表螺旋,图中表示为蓝色;E代表折叠,图中表示为橙色;T代表转角,图中表示为绿色;C代表其它松散结构,图中表示为黑色。
对于蛋白位点和序列模式预测在http://www.expasy.ch/swissmod/WISS?MODEL.html网站上进行,发现EOLA1存在1个螺旋?转角?螺旋(HTH)基序;无信号肽及跨膜区域,提示EOLA1为胞内可溶性蛋白;经查找PROSITE位点,结果找到(1)N?糖基化位点:位于氨基酸36?39(NCTI);(2)PKC磷酸化位点:位于氨基酸7?9(SFR)和氨基酸33?35(SQR);(3)酪氨酸激酶Ⅱ磷酸化位点:位于氨基酸100?103(TPDE);(4)2个N?肉豆蔻酸化位点:位于氨基酸62?67(GMTPAQ)和氨基酸81?86(GVIAGL).EOLA1蛋白序列及其结构分析见图6.其中,HTH基序用下划波浪线表示:氨基酸52?73;N?糖基化位点以下划直线表示:氨基酸36?39;磷酸化位点分别为:(1)PKC用方框表示:氨基酸7?9和33?35;(2)酪氨酸激酶Ⅱ用下划虚线表示:氨基酸100?103;(3)N?肉豆蔻酸化用阴影表示:氨基酸62?67和81?86.2.6 EOLA1编码蛋白的同源性比对和三维结构预测
应用SWISS?MODEL Workspace平台对EOLA1编码的蛋白质进行同源性比对分析和三维结构预测。反馈结果提示EOLA1和Activating Signal Cointegrator 1(ASC?1)有17.93%的氨基酸序列一致。SWISS?MODEL Workspace平台以ASC?1为模板预测出EOLA1的三维结构(图7)。E值为9.20e?32,SWISS?MODEL Workspace平台估计预测准确度为99.90%以上。图7a为模板蛋白ASC?1的三维结构,图7b为预测的EOLA1三维结构图。
3 讨论研究生论文发表
疾病相关新基因的功能研究是一项复杂而有重要意义的系统工程。当前人类已步入后基因组研究时代,人类基因组的全部序列已经获得,意味着人类基因组的研究将全面进入信息提取和数据分析阶段,即生物信息学发挥重要作用的阶段。同时功能基因组和蛋白质组的大量数据已开始涌现。如何分析这些数据,从中获得生物结构、功能的相关信息是基因组研究取得成果的决定性步骤。生物信息学是在此背景下发展起来的综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法的崭新交叉学科。目前已经开发出了非常多的模块和算法[17],应用于了解新基因基本信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行药物设计。了解基因表达的调控机理也是生物信息学的重要内容,根据生物分子在基因调控中的作用,描述人类疾病的诊断、治疗内在规律。它的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”,解释生命的遗传语言。
对一个新发现的人类疾病相关新基因,我们首先需要应用生物信息学技术对其进行初步分析,预测其生物学功能,为后期的研究指引方向。EOLA1系本课题组于2002年新发现的人类基因,系LPS刺激ECV304细胞后表达上调的基因,在此,我们应用生物信息学技术对EOLA1进行了比较全面的分析。其编码的蛋白EOLA1经网上同源性比对没有发现与之高度同源的人类已知蛋白。EOLA1与鼠111002L19蛋白高度同源,但到目前为止,对鼠111002L19蛋白功能也不清楚。对其二级结构进行预测,发现在EOLA1蛋白分子中存在酪氨酸激酶Ⅱ和蛋白激酶C磷酸化位点以及1个HTH基序。三维结构预测和蛋白质同源性分析发现EOLA1和ASC?1有17.93%的氨基酸序列一致性。ASC?1系Han?Jong Kim于1999年确认的一种新的核受体转录辅激动子(transcription coactivator of nuclear receptors)[18]。2006年Lakshminarayan将其归类为ASCH超家族,并认为该家族存在1个和PUA功能域相关的折叠结构,是一个新的功能域,可能参与RNA的代谢。经比对发现EOLA1和ASC?1三维结构非常类似,因此可以推测EOLA1可能系ASCH超家族的一员,参与核受体信号的传递。应用生物信息学发现EOLA1具有的这些生物学特征赋予EOLA1具有转导信号的能力,可以作为信号分子发挥作用。在抑制消减杂交实验中,EOLA1属于LPS刺激后表达上调基因。结合该信息我们推测EOLA1可能作为信号分子参与了LPS激活内皮细胞的过程。但对其功能的推测尚须实验证实。
将生物信息学与实验研究有机结合起来,可以显著加快实验进程,并对实验结果有所预期。由于生物信息学分析可以依靠互联网快速进行,且花费低廉,用以指导实验,可以做到有的放矢,避免巨大的浪费;反过来生物信息学分析的结果需要实验验证,并通过实验修正错误。