近日,國際電氣與電子工程學會(Institute of Electrical and Electronics Engineers,簡稱 IEEE)宣佈,授予 IEEE 終身 Fellow Jacob Ziv 2021 年度 IEEE 榮譽勳章。
這位如今已 90 歲的前輩,是一位以色列科學家,他開發了通用無失真壓縮演算法 Lempel-Ziv,為後來的 GIF、PNG 和 ZIP 檔案的開發奠定了堅實的基礎。
20 世紀 70 年代,隨著網際網路及 PC 時代的來臨,如何在有限記憶體空間的裝置上節省出更多的空間,並減少對頻寬的佔用,讓檔案在較低的網路頻寬下實現更快的傳輸,成為彼時 IT 行業亟需解決的一大難題。
正因此,資料壓縮技術也從背後逐漸走入大眾視野,並開始在計算機領域扮演重要角色。
現如今,想必很多人都知道,資料壓縮主要有兩種類型:一種是有失真壓縮,一種是無失真壓縮。
所謂有失真壓縮,主要是利用了人類對影象或聲波中的某些頻率成分不敏感的特性,允許壓縮過程中損失一定的資訊,日常生活中,我們常見的語言、影象、視訊壓縮其實都是有失真壓縮的方式。
與有失真壓縮相比,無失真壓縮要更為複雜一些,對此,IEEE 官方使用了「魔術」一詞來形容這門技術,其中原因主要是因為無失真壓縮技術是利用資料的統計冗餘進行壓縮,在解壓之後,可完全恢復原始資料而不引起任何失真。這就像一位魔術師拿著魔術棒一揮,手中的東西不見了,再一揮,又原封不動地出現了,無損壓損技術就像表演魔術一樣。
而 Jacob Ziv 就是這位在資料壓縮領域拿著魔術棒的大師。
不過,在 Jacob Ziv 這位魔術師帶來奇特的魔術之前,壓縮演算法也經歷了百年的發展歷程:
- 事實上,發明於 1838 年的 Morse code,是最早的資料壓縮例項。
- 隨著大型機的興起,數學家夏農和 Robert Fano(CSAIL的計算先驅和創始人)發明了 Shannon-Fano(夏農-範諾)編碼演算法。他們的演算法基於符號(symbol)出現的概率來給符號分配編碼(code)。一個符號出現的概率大小與對應的編碼成反比,從而用更短的方式來表示符號。
- 1951 年,作為麻省理工的一名學生,David Huffman 選擇寫學期論文而非期末考試的方式來完成學業任務,彼時他的論文題目是尋找二叉編碼的最優演算法。不過,遺憾的是,經過幾個月的努力後依然沒有任何成果,Huffman 決定放棄所有論文相關的工作,開始學習為參加期末考試做準備。就在那時,Huffman 偶然間找到一個與 Shannon-Fano 編碼相類似但是更有效的編碼演算法,這種編碼方式效率高、運算速度快。
- 後來到了 20 世紀 70 年代,隨著線上儲存的出現,哈夫曼編碼得到了廣泛應用。不過,經過不斷地嘗試,不少科學家發現哈夫曼編碼所得的編碼長度只是對資訊熵(描述信源的不確定度)計算結果的一種近似,還無法真正逼近資訊熵的極限。同時,它需要兩次通過資料檔案:一次計算檔案的統計特徵,第二次編碼資料。將字典與編碼資料一起儲存,增加了壓縮檔案的大小。
1977 年,來自以色列的 Jacob Ziv 和 Abraham Lempel 兩位技術大神打破傳統的設計思想,創造出一種哈夫曼編碼更有效的壓縮演算法,並以兩個人名字來命名。同時,他們還發表了一篇名為《A Universal Algorithm for Sequential Data Compression》(順序資料壓縮的一個通用演算法)的論文,揭曉了獨創的 LZ77 演算法,這也是第一個使用字典來壓縮資料的演算法。
次年,Jacob Ziv 和 Abraham Lempel 再次發表一篇改進版的論文(《Compression of Individual Sequences via Variable Rate Coding》),並帶來了 LZ78 的壓縮演算法。與 LZ77 不同,LZ78 解析輸入資料,生成一個靜態字典,不像 LZ77 動態產生。該演算法成為 80 年代初使用的 Unix 壓縮程式的基礎;影響了 90 年代的 WinZip 和 Gzip,為 GIF、TIFF 圖片格式的開發帶來了一定的指引。
如果沒有這些演算法的存在,現在的我們不一定能夠使用更為便捷的網路就可以傳送大型資料檔案,或還停留在將大型資料檔案拷貝到光碟上進行傳輸時代;聽音樂時,還有可能需要 CD 而不是通過流式傳輸......
這一切都需要感謝 Jacob Ziv 和 Abraham Lempel。
"LZ 演算法是第一個成功的通用壓縮演算法",一位支援 Ziv 獲獎的工程師如是說。這些演算法以及 Jacob Ziv 對它們的分析,為後續關於通用演算法的大多數工作奠定了基礎。
回顧 Ziv 的過往經歷,其跨越了半個世紀,將自己全身心地投入到壓縮演算法領域中。
1931 年,出生在當時由英國統治的巴勒斯坦城市 Tiberias(現屬於以色列)的 Ziv,在很小的時候,Ziv 就對電力和電子產品有著濃厚的興趣,譬如,在練習小提琴的時候,他會嘗試把樂譜架變成一盞燈。此外,他還試圖用鋼琴彈奏的金屬零件製作一個馬可尼發射機。
1948 年,第一次阿以戰爭爆發時他在讀高中,後來被徵召到前線短暫地服過役。由於一群母親組織抗議,他才從前線回到了後方,在空軍受訓擔任雷達技師。戰爭結束後,他進入以色列理工學院學習電氣工程。
在 1955 年完成碩士學位後,Ziv 重返國防界,並加入了以色列國防研究實驗室(現為拉斐爾先進防禦系統),開發用於導彈和其他軍事系統的電子元件。
1959 年,Ziv 被選為以色列國防實驗室為數不多的出國留學的研究人員之一。那時,Ziv 計劃繼續從事通訊工作,但他不再只對硬體感興趣。偶然機遇之下,他閱讀了《資訊理論》(Prentice-Hall,1953年)的書籍,他決定將資訊理論作為他關注的焦點。然而,除了麻省理工學院之外,還有什麼地方可以研究資訊理論呢?
當然還是麻省理工!於是,1960 年,Ziv 進入 MIT 讀博,在資訊理論方面深造,在畢業返回以色列後進入了國防部擔任通訊部門主管。
兩年後,Ziv 和幾個同事一起加入了以色列理工學院。就是在這裡,他遇到了 Abraham Lempel,兩個人共同討論瞭如何改進無損資料壓縮。
Ziv 和 Lempel 都想知道他們是否可以開發一種無損資料壓縮演算法,該演算法適用於任何類型的資料,不需要預處理,並且能夠實現資料的最佳壓縮,這個目標被稱為 Shannon 熵的物件定義。在設想時,他們並不清楚是否可以實現他們的目標。於是,他們決定找出答案。
在深入研究幾年後,隨著 LZ77 和 LZ78 的出現,代表了其研究成功。Ziv 和 Lempel 開創了通用源編碼,一系列無需知道固有資訊壓縮資料的演算法,減少了從不失真和失真資料重建影象所需的資料率。
對此,斯坦福大學從事資訊理論的電氣工程教授 Tsachy Weissman 表示:"在他們發表作品時,演算法清晰優雅,易於實現,計算複雜度低,這一事實幾乎無關緊要。更多的是關於理論結果,為接下來的研究帶來重要意義。"
另外,Ziv 還促成了錯誤校正程式碼的低計算複雜性解碼理論。並於:
- 1993 年,因精確科學而被授予以色列獎(Israel Prize);
- 1995 年,因其「對資訊理論、資料壓縮的理論和實踐的貢獻」獲得 IEEE 理查德 · 漢明獎章;
- 1997 年,獲得 IEEE 資訊理論學會的克勞德 · 夏農獎;
如今,憑藉「其對資訊理論和資料壓縮技術的重要貢獻和傑出的研究領導地位」,被授予 2021 年度 IEEE 榮譽勳章,可謂實至名歸,向依舊奮戰在研究一線的前輩致敬!
胡正明 1947 年 7 月出生於中國北京,1973 年獲美國加州大學伯克利分校博士學位,1991-1994 年任清華大學(北京)微電子學研究所榮譽教授,1997 年當選為美國工程科學院院士。他是是微電子微型化物理及可靠性物理研究的一位重要開拓者,對半導體器件的開發及未來的微型化做出了重大貢獻。
張忠謀 1931 年出生於浙江寧波,曾就讀於哈佛大學、麻省理工學院等高校,臺積電創始人,被譽為「晶片大王」、臺灣「半導體教父」。
卓 1937 年出生於北京,是分子束外延(Molecular beam epitaxy)技術的鼻祖,量子級聯鐳射器的共同發明人,對 Ⅲ-V 族化合物半導體、金屬和絕緣體的異質外延和人工結構的量子阱、超晶格及調製摻雜微結構材料系統地開展了大量先驅性的研究工作。卓以和是美國國家科學院院士、美國工程院院士、中國科學院外籍院士,1993 年獲美國國家科學獎章,2007 年獲美國國家技術獎章。
https://spectrum.ieee.org/the-institute/ieee-member-news/ieee-medal-of-honor-goes-to-data-compression-pioneer-jacob-ziv
https://spectrum.ieee.org/geek-life/profiles/from-winzips-to-cat-gifs-jacob-zivs-algorithms-have-powered-decades-of-compression