數(shù)百萬年前至今的生物進(jìn)化樹
何為宇宙?
古人稱:四方上下曰宇,古往今來曰宙。宇宙有上千億個星系存在,銀河系就是其中一個存在。每個星系中又都包含數(shù)十億顆恒星,而每一顆恒星都會在自身引力的作用下,吸引一群行星繞在自己身旁形成子單系,太陽系就是恒星,我們居住的地球就是圍繞太陽運(yùn)轉(zhuǎn)的那顆行星。地球形成至今已有46億年,在地質(zhì)、環(huán)境等條件不斷演變的情況下,生物體通過基因突變(自然選擇)慢慢適應(yīng)這個星球,再經(jīng)過時(shí)間的延續(xù),無數(shù)碳基生物體你來我往,構(gòu)建了上圖的生物種類進(jìn)化樹。這里的基因突變就是DNA鏈中的特殊某段定義的,地球的生命史就被篆刻在每一種生物的DNA中。今天的故事就要從DNA說起。
那么,什么是DNA呢?
DNA:脫氧核糖核酸(英語:DeoxyriboNucleic Acid,縮寫為DNA)由含氮的堿基+脫氧核糖+磷酸組成。因?yàn)槊撗鹾颂呛颂呛土姿岫家粯?,但堿基可以分為四種(腺嘌呤A,鳥嘌呤G,胸腺嘧啶T,胞嘧啶C),所以脫氧核糖核苷酸就可以分為四種(按照堿基的不同區(qū)分),同時(shí)在書寫過程中可以用堿基的簡寫(AGTC)代替。
人類DNA序列片段
簡單來說,DNA就是由A、T、G、C四種堿基無規(guī)則排序組成的一長串序列編碼,是大多數(shù)生物的遺傳信息的載體。DNA編碼上的信息可以組成遺傳指令,用來引導(dǎo)生物發(fā)育與生命機(jī)能運(yùn)作。
生物體中的DNA堿基構(gòu)成一條長序列后,幾乎從不作為單鏈存在,而是應(yīng)用堿基互補(bǔ)原則,既通過A對T或者T對A、G對C或者C對G的方式形成堿基對,構(gòu)建出另一條DNA堿基序列,作為一對彼此緊密相關(guān)的雙鏈,彼此交織在一起形成雙螺旋結(jié)構(gòu)。
DNA雙螺旋結(jié)構(gòu)
影視劇中經(jīng)常出現(xiàn)被我們大家熟知的親子鑒定,就是利用到了DNA。生物學(xué)、遺傳學(xué)上使用DNA做親子鑒定時(shí),否定親子關(guān)系的準(zhǔn)確率幾近100%,肯定親子關(guān)系的準(zhǔn)確率可達(dá)到99.99%。
在我們開發(fā)的應(yīng)用程序中,通過對某禽流感病毒DNA堿基序列片段的比對,找到同源性比較高的DNA序列片段,這些序列代表的是與原序列相近的病毒,或者說與原序列代表的病毒屬于“近親”。
DNA比對結(jié)果
再對列表內(nèi)的序列進(jìn)行同源性比較,就能看到所選擇的序列兩兩之間的同源性為多少,用以判斷兩種病毒的“親緣”關(guān)系,如下圖:
DNA比對矩陣
由這些DNA序列構(gòu)建而成的進(jìn)化樹更能說明序列所代表的病毒的“親緣”關(guān)系,如下圖。圖中,進(jìn)化樹中的橙色字體代表查詢序列的序列號,藍(lán)色字體代表比對序列的序列號。其中,在一個外群的分支“親緣”關(guān)系更為緊密,而同一外群中,一個節(jié)點(diǎn)下的兩個病毒的DNA序列支長越短,“親緣”關(guān)系越近,反之,“親緣”關(guān)系越遠(yuǎn)。而對于支長,我們可以通過標(biāo)尺來觀測其長短。
進(jìn)化樹
而DNA又是如何成為蛋白質(zhì)的呢?
DNA不是直接就變成了蛋白質(zhì),而是通過一系列過程,最終轉(zhuǎn)化為蛋白質(zhì)。
首先是DNA的轉(zhuǎn)錄:DNA在細(xì)胞核內(nèi),根據(jù)堿基互補(bǔ)配對原則,和基因的選擇性表達(dá)等,轉(zhuǎn)錄出mRNA(信使RNA),信使RNA上攜帶的就是特定的DNA序列,叫做密碼子,密碼子對應(yīng)不同的氨基酸。
其次是mRNA的翻譯:mRNA通過核孔來到細(xì)胞質(zhì)中的核糖體上,根據(jù)密碼子的不同,tRNA(轉(zhuǎn)運(yùn)RNA)上有反密碼子和攜帶的特定氨基酸。根據(jù)堿基互補(bǔ)配對的方式,tRNA和mRNA結(jié)合,那么就會有不同的氨基酸,通過脫水縮合的方式形成肽鍵,多個氨基酸通過肽鏈結(jié)合形成肽鏈。
最后肽鏈:多個肽鏈通過高爾基體,內(nèi)質(zhì)網(wǎng)等加工,在空間上通過折疊,反轉(zhuǎn),螺旋等方式形成空間結(jié)構(gòu),從而形成具有生物活性的蛋白質(zhì)。
DNA—RNA—蛋白質(zhì)
總結(jié)下來就是:DNA序列是遺傳信息的貯存者,它通過自主復(fù)制得到永存,并通過轉(zhuǎn)錄生成mRNA,再翻譯生成蛋白質(zhì)的過程。該過程完全自主完成,且該過程控制所有生命現(xiàn)象。通俗點(diǎn)講就是我干自己的活,誰也管不了我,但我能弄你。偉不偉大先不說,牛X不牛X就完了!
不由感嘆:敬畏宇宙,敬畏自然!
工作中,我們通常操作的只是類似ATGC這樣的DNA堿基的序列編碼,通過對DNA堿基序列的轉(zhuǎn)錄、翻譯,最終成為的氨基酸序列就可以了。在我們應(yīng)用程序里更是直接利用密碼子表將DNA序列轉(zhuǎn)換為氨基酸序列:
DNA序列翻譯為氨基酸序列
上圖就是在一長串DNA原始序列找到開放閱讀框,將該閱讀框內(nèi)的DNA序列翻譯為氨基酸序列的操作。通過程序計(jì)算,該原始序列內(nèi)共找到13條開放閱讀框序列。也就是說,我們可以將該原始序列翻譯成13條氨基酸序列。
提到開放閱讀框,就不得不提密碼子,它就像摩斯電碼一樣,不同的點(diǎn)橫組合,可以翻譯為不同的代碼。
摩斯電碼表
所謂密碼子,就是三個連續(xù)DNA堿基為一組,這一組堿基序列就可以翻譯為一個氨基酸編碼,而所有的三個連續(xù)DNA堿基的排列組合構(gòu)成了密碼子表。有了密碼子表(下圖),我們就能更便捷的將DNA翻譯為氨基酸。但密碼子表中有兩個特殊存在:起始密碼子ATG和終止密碼子TAA/TAG/TGA,它們是定義一段DNA序列是否能翻譯為氨基酸序列的標(biāo)準(zhǔn)。
DNA-氨基酸密碼子表
氨基酸中文對照表
在正向DNA序列中,從第一個起始密碼子開始到最后任意一個終止密碼子結(jié)束,且中間堿基數(shù)量是3的倍數(shù)的DNA序列,才是正常的可翻譯氨基酸的DNA序列,也被稱為開放閱讀框;否則稱為殘缺序列。殘缺序列是無法被翻譯為氨基酸序列的。需要提到的一點(diǎn)就是,當(dāng)我們翻譯時(shí),默認(rèn)將終止密碼子翻譯為星號(*)。
到這里,我們就已經(jīng)成功將DNA翻譯成了氨基酸。而氨基酸最終會構(gòu)成蛋白質(zhì)。至于蛋白質(zhì)的功效,就不必多講了。生活中各種高蛋白之類的產(chǎn)品宣傳估計(jì)已經(jīng)將蛋白的功效普及的差不多了。
那么問題來了,給你一串人類DNA序列片段:ATGGCACATGCAGCGCAATAG,你能將其翻譯成氨基酸序列嘛?
中科北緯軟件研發(fā)團(tuán)隊(duì),長期從事林草病蟲害監(jiān)測預(yù)報(bào)防治、野生動物保護(hù)和疫源疫病監(jiān)測預(yù)警等方面業(yè)務(wù)梳理和軟件開發(fā)工作,以網(wǎng)絡(luò)和信息化助力您的基因探索之路。