首頁 > 硬體

多到一塊硬碟都存不下的小姐姐們 未來能直接刻進你的DNA?

2021-11-02 11:00:06

很怪啊,也不知道從什麼時候開始,網友們突然喜歡把各種各樣的東西刻進自己的 DNA 裡。

有電影的名場面,有洗腦神曲,還有一些奇怪的畫素。

當然,刻進 DNA 這個說法也只是大家的調侃,畢竟像這些資料更多的還是存在於我們的硬碟裡。

但我們把時間往前翻兩年,2019 年由科學美國人所評選的十大突破性技術中,DNA 儲存技術赫然在列。

臥槽!難道未來將畫面刻進 DNA 真的能夠實現了?

大家好!我是差評君~順著這個話題,今天咱們就來聊聊資料儲存的那些事。

現有儲存方式以及侷限性  

自打人類文明誕生以來,如何儲存資訊,一直都是一個讓人類頭疼的問題。從給繩子打結,到現在的磁帶硬碟。

隨著文明的進步,儲存方式也在發生著巨大的改變,原因就在於我們想要儲存的資訊也越來越多了。

 咱們就從視訊網站來看 —— 在去年 3 月某視訊站啟用新視訊序號之前,該站的視訊號序號已經到達了 1 億的量級。

按一個視訊 100MB 來看,這些視訊所需要的儲存空間就達到了 9.5PB。

想要存夠這些視訊,大概需要 9500 塊 1T 容量的硬碟。

這樣看上去好像還好,但隨著該站使用者的增多,如今一天的投稿量就已經超過了十萬。

簡單估算一下,一年就能投超過 6000 萬個稿件,又因為增加了 4K 和高影格率視訊。視訊佔用空間更大,估計不到一年就能用掉之前好幾年才能用掉的儲存空間。。。

如果 B 站未來發展良好的話,需要的儲存空間將會不可逆的加速增加。除了視訊之外,各種物聯網裝置和車載系統也會產生大量資料。

據因特爾計算,一輛聯網的自動駕駛汽車,一天執行下來,通過各類的感測器,將會產生大約 4GB 資料。

而對於那些社交軟體,就拿微信舉例吧。安裝的時候不到 100MB,等你過個一年半載的再看看。

嚯!佔用空間 10G+。。。

所以對於未來資料儲存的需求,IDC( 國際資料組織 ),早在 2018 年就釋出了一份《 資料時代 2025 》的報告。預測到 2025 年,全球每年產生的資料將會達到 175ZB,換算下來每天都會產生 491EB 左右的資料量。

如果你想要用 1T 大小的硬碟把 491EB 的資料存下來,那你至少需要 514850816 塊硬碟。把這些硬碟首尾相連,能繞地球赤道將近兩圈。

而這,只是一天所產生的量!

探索新的儲存方式  

與此同時,咱們 2020 年全球硬碟( 包括固態和機械 )的產量,也不過 5.89 億塊,加起來的總儲存容量連 2ZB 都不到,而硬碟儲存在所有儲存方式中佔比達到了 65%。

硬碟不夠用了,自然就有很多資料被永久的刪除了。

當然並不是所有產生的資料都有儲存必要,像騰訊 QQ 就算你開了超級會員,它也只給你在雲端儲存個兩年的聊天資料。

但在未來由巨量資料驅動的網際網路環境下,需要儲存的資料只會越來越多,所以除了硬碟、磁帶、光碟,咱們還能有什麼方法能夠大量的長時間儲存資料呢?

 對此,科學家們提出了一種可能。

這個可能就藏在每個人的身體裡 —— 那就是 DNA。

DNA 儲存的可行性  

停停!別亂想~這是很正經的學術問題。

早在 20 世紀 70 年代,有關於 DNA 資訊儲存的構想就被提出來了,並在 1988 年由哈佛大學和藝術家 Joe Davis 共同合作將 35bits 資料的符號影象編入了大腸桿菌 DNA 中。

我相信看到這裡肯定有很多人搞不明白,這 DNA 怎麼能和儲存資訊聯絡起來。

要講清楚這個,咱們首先要知道一件事。

資訊是怎麼儲存的?

現在咱們用的數位化儲存磁帶硬碟這些東西,想要儲存文字圖片視訊這些資訊,並不是像紙筆這樣直接寫下來或畫下來,而是將文字圖片視訊轉化成一串二進位制碼,再記錄在硬碟上。

比如想要記錄這麼一句話 “ hello world ”,首先電腦會將 hello world 經過 ASCII 碼轉化成二進位制碼,ASCII 碼是基於拉丁字母的一套電腦編碼系統。

這套系統中,ASCII 碼定義了 128 個字元,每個字元按順序使用二進位制碼標記,這樣通過記錄二進位制碼就能知道你記錄的資料了。

這種做法很像摩斯電碼是不是,轉換成二進位制碼之後,電腦就會通過磁電效應,利用硬碟裡上成千上萬的小磁極記錄這些 01 資料,在讀取時反向操作即可。

。。。

以上這些內容相信大多數差友們比我都還了解,但這跟 DNA 又有什麼關係?

難道 DNA 也有磁性,能像這些網友們一樣吸住鐵勺嘛?

 肯定不能啊!更何況這些人能吸住勺子,大概率只是因為沒洗澡面板黏而已。( 雖然 DNA 也挺黏的 )

啊不是!雖然 DNA 沒有磁性,但是差友們還記得高中生物中教的 DNA 轉錄那一課嗎?DNA 本身是由四種鹼基組成 —— 腺嘌呤、鳥嘌呤、胞嘧啶以及胸腺嘧啶。

為了記錄遺傳資訊,四種鹼基會排列成不同順序。在表達時 DNA 解旋裂開以其中的一條鏈為模板進行轉錄,生成 mRNA ( 信使 RNA ),mRNA 上相鄰的三個鹼基,就是它們表達性狀的最小單位密碼子。

不同排列順序的密碼子就代表著不同的遺傳密碼。

欸!這個密碼錶,放計算機裡來,原理上不就是 ASCII 碼嘛,也就是說 DNA 記錄資訊的方式在邏輯上是和數位儲存一摸一樣的。只要咱們把 DNA 的四種鹼基拿來翻譯二進位制,那不就可以用 DNA 記錄資訊了嘛。

比如,00 指代腺嘌呤 A、01 鳥嘌呤 G、10 胞嘧啶 C、11 胸腺嘧啶 T。

一句 “ hello world ” 的二進位制 ASCII 碼是這樣的:

01101000 01100101 01101100 01101100 01101111 00000000 01010111 

01001111 01010010 01001100 01000100 

轉換成 DNA 編碼那就是這樣:

GCCA GCGG GCTA GCTA GCTT AAAA GGGT GATT GGAC GATA GAGA 

這樣一來,所有能用二進位制記錄的資料,DNA 也能記錄下來了。從邏輯上來看,雖然 DNA 儲存很好理解,具體到實現上就要花點功夫了。

作為儲存裝置,要實現的功能無非就是寫入然後讀取 DNA 編碼寫入部分主要由兩步組成。

DNA 編碼以及 DNA 合成編碼過程中除了要進行二進位制碼轉化外,還有就是要解決化學合成中的精準度不高的問題。所以一般都是對資訊先進行壓縮,然後加入糾錯碼,最後再轉化成 DNA 編碼。

DNA 合成則是將鹼基序列中的鹼基逐個連線形成 DNA 鏈的過程,由於細胞的排外性及受生物活動的影響,一般採用體外人工合成的方式合成 DNA 鏈,這個合成本質上來說就是一系列針對性的化學反應。

又因為合成 DNA 長鏈在時間、錯誤率、技術難點等方面均高於短鏈,所以通常將鹼基序列分成若干短鏈。

短鏈的頭部就是地址位,它的功能就是定位某段短鏈在資訊中的位置,這樣就可以快速查詢、定位、拼接各段資訊。

資訊存入完畢後,剩下的就是 DNA 解碼讀取了。

首先通過 PCR 技術,也就是 DNA 體外擴增技術,對 DNA 片段進行復制,獲得多個 DNA 片段副本,然後在對副本進行 DNA 測序。

獲取鹼基序列後,對序列糾錯、去冗( rong )餘解碼,最後就能得到完整的原始資料。

優缺點  

既然是一種新的儲存方式,DNA 儲存肯定有它的優勢所在。

首先就是儲存密度,因為 DNA 自身的立體雙螺旋結構,使得 DNA 資訊儲存密度的數量級是目前已知任何儲存技術的若干倍。

比如快閃記憶體最多隻能在 10nm 記憶體儲 1bit 的資料,而 DNA 可以在 0.34nm 儲存 2bits,1 克 DNA 所能儲存的資訊,需要 420 億個 U 盤或者 26 億塊硬碟或者 2.27 億個磁帶才能存下。

想要記錄下全球所有的資料,咱們需要的只是一千克 DNA 而已。

其次,DNA 還有著其它磁性材料無法擁有的穩定性。

硬碟磁帶這些磁性材料,其儲存時間最多數十年,就會因為消磁和耗材等原因造成資訊丟失,以至於要對資料重新刷寫。

而 DNA 並沒有消磁的擔憂,DNA 分子是一種在低溫下極其穩定的分子。它的半衰期長達 512 年,並且在極低溫下,DNA 可以儲存成千上萬年。

在 2013 年,科學家們就從永凍土中挖出過一匹被冰凍時間長達 70 萬年的馬。經測試,這匹馬的 DNA 仍然可以進行測序。

雖然 DNA 儲存的優點非常亮眼,但它現在的缺點也是非常明顯的。

首當其衝的就是 DNA 儲存的成本過高。。。

紐約基因中心曾經將 6 個檔案寫入 DNA —— 一個完整的作業系統、一部 1895 年的電影、一個 50 美元的亞馬遜禮品卡、一個計算機病毒、1972 年先鋒號飛船上的金屬板所攜帶的資訊以及資訊學家 Claude Shannon 一項 1948 年的研究資訊。

為了合成這些資訊,他們總共花費了 7000 美元,而為了讀取這些資訊他們又花費了 2000 美元。

整個過程都需要專業的儀器裝置協助,個人使用及其不方便。

其次就是合成速度慢,之前說的那 6 個檔案,他們花了兩週時間才收到了合成好的 DNA。

DNA 測序的發展  

這些缺點讓 DNA 儲存目前的應用場景變得非常侷限,畢竟誰也不想存個照片就得等個大半天吧不是。不過,這些缺點也不妨礙 DNA 儲存成為目前儲存方向的重點研究領域。

咱們國家就已經把 DNA 儲存這項技術納入十四五規劃中,國外對這項技術的研究也沒有停滯。

據外媒報道 2019 年微軟就與華盛頓大學旗下的科研人員,研發出了一套能夠將 DNA 合成和測序自動化讀取的儲存裝置。

這臺原型裝置造價不過 1 萬美元,這臺裝置的軟體首先將數位程式碼轉換成 DNA 編碼,然後 DNA 編碼自動傳送到合成器,合成器以正確的順序和比例將所需的化學物質和液體結合起來,然後將客製化的 DNA 分子吐到儲存容器中。

想要讀出資料時,儲存容器中的 DNA 分子會被推入一個納米孔 DNA 測序機,把 DNA 分子序列自動轉化成二進位制碼。

在實驗中,他們成功的將 “ hello ” 這一詞編入了 DNA 片段並進行讀取。

而且從 2004 年至今,合成 DNA 寡聚體的成本已經下降了 96%,降低的原因是基於微陣列的合成方法以及寡聚體池的發展,但是由於 DNA 良好的可複製性,反而讓 DNA 儲存在商業上無法得到更大的利潤。

因為一旦獲得了合成的 DNA,就不再需要重複訂購,基因可以在內部以低廉的成本複製,甚至編譯好的 DNA 還能隨著生物的自我繁殖而複製。

早在 2017 年,就有團隊將一張賽馬的動圖經過 DNA 編碼後,送入大腸桿菌內。

隨著大腸桿菌的多代繁殖,研究人員依舊能夠從它們的後代中提取出編碼後的資訊準確率高達 90%。

結尾  

所以隨著這項技術的發展,未來世界可能會變得越來越賽博朋克起來。

有這麼一個事,在 2018 年有一位來自法國的 16 歲高中生在瞭解 DNA 儲存後,他便想著能不能給自己的身體裡刻入一些 DNA 資訊呢?

於是他把聖經和古蘭經的部分內容轉譯編成 DNA 編碼,一家名為 VectorBuilder 的專門用來創造病毒的公司在把 DNA 片段編入病毒後,將 DNA 液體寄給了這位高中生。

隨後這位高中生便將這份液體注入到自己的體內。據他稱事後除了傷口有一點發炎並無其它大礙。

當然,像他這樣往自己體內注射病毒的方式並不能改變自己身上的 DNA,除了讓自己的免疫系統忙碌起來並沒有什麼其它作用。

不過咱們可以大膽幻想一下,隨著基因工程和 DNA 儲存的發展,說不定到時候還真會誕生各種儲存了 DNA 資料的生物或寵物。

想要交換資料不再是交換 U 盤了,而是問道,能給我一點你的 DNA 嘛?

希望大家到那個時候可別把什麼亂七八糟的東西都刻進 DNA 啊!


IT145.com E-mail:sddin#qq.com