糖尿病新基因SLC30A8的生物信息学分析
2011年1月13日 13:36 作者:论文网众多研究显示,遗传因素在2型糖尿病(T2DM)发病中起着非常重要的作用〔1,2〕,但由于T2DM系多基因遗传病,研究的进展非常缓慢,直到2005年,不管是采用候选基因法还是连锁?定位克隆法,只有极少数几个T2DM的易感基因在一些种族的研究中得到重复验证,而它们仅轻度增加T2DM的发病风险〔3〕。近2年多来,随着高通量SNPS检测技术的出现和全基因组关联(GWA)研究策略的运用,T2DM遗传学的研究取得了一些突破性进展,美国和欧洲多个基因研究组织采用全基因组分析法对1 464例T2DM患者和1 467例糖耐量正常个体的基因结构进行了系统研究,确认了几个与糖尿病相关的新基因位点——TCF7L2、SLC30A8、CDKN2A、CDKN2B、GF2BP2、CDKAL1〔4〕,这些基因的功能和调控机制还不十分清楚。在国内,邬莹等〔5〕研究发现在中国汉族人群中,CDKAL1、CDKN2A/B、SLC30A8等基因上的数个SNP位点与T2DM风险显著相关。SLC30A8基因也是中国人T2DM的一个易感基因,但对SLC30A8基因的研究还不够深入。因此,本文利用生物信息学工具和数据库,对SLC30A8进行分析,研究SLC30A8基因的功能,了解中国人糖尿病的遗传学基础,对预防和控制糖尿病具有重要的理论和临床意义。
1 材料与方法医学论文发表网站
1.1 材料 人类糖尿病基因SLC30A8核苷酸序列来源于已经提交到GenBank数据库(GI:224589820)的序列。
1.2 SLC30A8基因结构分析及SLC30A8基因编码蛋白质的理化性质分析 通过NCBI的ORF Finder、Protparam、Computer pI/MW确定其完整编码框并预测蛋白质的理化性质;信号肽序列分析采用SignalP工具;蛋白质翻译后修饰的糖基化位点和磷酸化位点分析分别采用DictyOGlyc在线软件和NetPhos 2.0 Server分析;氨基酸序列的同源性比对用ClustalW在线工具完成,通过蛋白分析专家系统Expasy所提供的在线分析工具ProtScale分析蛋白的疏水性。
1.3 SLC30A8基因编码蛋白质的结构和功能分析 利用互联网ExPaSy数据库进行SLC30A8蛋白质的跨膜结构域分析;利用PUMA2服务器的SOPM软件进行蛋白序列的二级结构的分析;利用ExPasy的3djigsaw工具(http://www.bmm.icnet.uk/servers/3djigsaw/)向蛋白质立体结构数据库PDB(Protein Data Bank)提交蛋白质的序列;利用RasMol软件显示蛋白的三维分子结构。利用在线工具TMHMM分析蛋白质的跨膜结构域;利用COILS进行卷曲螺旋分析;利用Pfam进行蛋白的结构域功能分析〔6〕。
2 结 果
2.1 SLC30A8在染色体上的定位及基因结构 人类糖尿病基因SLC30A8的Gene ID是169 026,定位在8q24.11。SLC30A8基因核苷酸序列全长41 617 bp(NC?000008.9),含8个外显子。mRNA序列长5 373 bp,编码369个氨基酸的蛋白质(NP?776250),有2个PolyA信号区域分布位于1 933~1 938、 5 353~5 338,5个PolyA位点分别位于1 955、1 961、2 750、2 754、5 373。见表1。表1 SLC30A8外显子序列和对应的mRNA序列
2.2 SLC30A8基因编码的蛋白基本性质分析
2.2.1 开放阅读框(ORF)分析 ORF从第231个核苷酸开始,终止于第1 340个核苷酸,由其推导的氨基酸序列以甲硫氨酸为起始氨基酸,长为369个氨基酸。
2.2.2 疏水性分析 疏水性是氨基酸的一种重要性质,疏水性氨基酸倾向于远离周围水分子,将自己包埋进蛋白质的内部,这一趋势加上空间立体条件和其他一些因素最终决定了一个蛋白质折叠形成的三维空间构象〔7〕。通过分析可以得到蛋白质的亲疏水区域,这一结果一方面为二级结构预测结果提供参考,另一方面还可为结构域及功能域的划分提供依据。ProtScale预测结果表明:疏水性最大值为3.044,最小值为-2.889(图1)。
图1 SLC30A8氨基酸序列的疏水性2.2.3 信号肽、跨膜结构域及翻译后修饰分析 进行信号肽分析有助于蛋白质功能域的区分及蛋白质细胞定位。根据SignalP分析,蛋白质C分值、Y分值和S分值分别在248、157和150位点,分别为0.142、0.228和0.833,其信号肽计算结论为“NO”,表明其N端不含信号肽(图2),推测其不是分泌蛋白。图2 SLC30A8氨基酸序列的信号肽预测分析
跨膜结构域是膜中蛋白和膜脂相结合的主要部位,它可能作为膜受体起作用,也可能定位于膜的锚定蛋白或离子通道蛋白等,通过跨膜结构域预测可以正确认识蛋白质结构、功能及在细胞中的作用部位。笔者利用通过TMPRED服务器分析,表明该蛋白质是一个6次跨膜的蛋白质,在4和5螺旋之间有一个富含组氨酸的环(图3)。用Smart对 SLC30A8基因的产物进行蛋白质序列结构功能域分析,结果表明蛋白质含有2个N糖基化位点,2个N酰基化位点。NetPhos 2.0Server磷酸化位点分析结果表明:分值>0.5的磷酸化位点有:丝氨酸(Ser)磷酸化位点8个、苏氨酸(Thr)磷酸化位点1个、酪氨酸(Tyr)磷酸化位点2个,计11个磷酸化位点,这些位点均匀分布于整个多肽链中。见图4。图3 SLC30A8氨基酸序列的跨膜结构域分析图4 SLC30A8氨基酸序列的磷酸化位点分析 图5 SLC30A8蛋白质三级结构的同源建模2.3 基因编码蛋白质结构分析医学论文发表网站
2.3.1 三级结构构建与功能域分析 图5可见,三级结构是蛋白质结构预测的最终目的。要充分研究蛋白质的功能,就需把蛋白质的高级结构研究清楚。从氨基酸序列预测三级结构的技术很多,其中之一是同源建模,它通过比较未知结构蛋白质序列与已知结构的蛋白质序列来预测蛋白质结构,可以通过同源建模以击中序列的已知结构为模板,对蛋白质进行精确的结构模型构建。作者利用Expasy的3djigsaw工具预测蛋白质的三维结构,利用Ramol软件察看预测结果。
3 讨 论
从以上的研究和分析可以看出,糖尿病相关基因SLC30A8编码的蛋白质是一种多次跨膜蛋白,并且蛋白经过了多种形式的修饰。磷酸化和去磷酸化是细胞内信号传导的重要方式,而此蛋白有11个位点发生了磷酸化,蛋白质通过磷酸化和去磷酸化而发生构象改变导致其活性或性质的改变,从而调节细胞中各个生命活动过程, 所以推测SLC30A8基因编码的蛋白质是一个有功能的比较活跃的蛋白质。另外蛋白质还发生了糖基化和酰基化,推测蛋白质具有传导信号的功能。研究表明SLC30A8编码的是一种在胰岛细胞大量表达的锌离子转运蛋白,其主要功能是将胞浆内的锌离子转运到胰岛素分泌囊泡中,参与胰岛素结晶六聚体的形成〔8〕。因此推测SLC30A8异常,可能会影响胰岛细胞胰岛素的正常分泌。本文利用生物信息学工具盒数据库资源对SLC30A8基因的染色体定位、基因结构及所编码的蛋白质性质、结构等进行了分析,为进一步研究SLC30A8基因在糖尿病发生中的作用提供参考依据。目前关于SLC30A8基因的研究还很少,其编码的蛋白质是如何调控锌离子转运的以及如何参与胰岛素分泌的都将有待于进一步研究。