首頁 > 軟體

深入理解Linux下的幾種檔案型別

2020-06-16 16:38:16

在Linux系統下,有七類檔案型別:

  • 普通檔案(-)
  • 目錄(d)
  • 軟連結(字元連結L)
  • 通訊端檔案(S)
  • 字元裝置(S)
  • 塊裝置(B)
  • 管道檔案(命名管道P)

普通檔案、目錄、軟連結無需多解釋。

管道檔案

管道分為匿名管道和命名管道。管道都是一端寫入、另一端讀取,它們是單方向資料傳輸的,它們的資料都是直接在記憶體中傳輸的,管道是進程間通訊的一種方式,例如父進程寫,子進程讀。

在shell中匿名管道就是一個管道符號"|",例如ls | grep xxx,其中ls對應的進程是這個獨立行程群組中的父進程,grep對應的進程是子進程,父進程寫子進程讀。

在程式語言中,匿名管道是通過建立兩個檔案控制代碼或檔案描述符(例如A、B)來實現的,一個檔案控制代碼用於寫資料(例如A寫入端,資料寫入A將自動推入B中),另一個檔案控制代碼用於讀資料(即B)。

對於命名管道,即有名稱的管道,命名管道將檔案保留在檔案系統中,它也稱為FIFO,也就是first in first out。雖然命名管道檔案保留在檔案系統中,但是這個檔案只是使用命名管道的一個入口,在使用命名管道傳輸資料的時候,仍然是在記憶體中進行的,也就是說並不會因為保留在檔案系統上命名管道的效率就低了。

在shell中,可以使用mknod命令或mkfifo命令建立命名管道,在寫某些特殊需求的shell指令碼時,命名管道非常有用。實際上,在Bash 4之後就支援協程(使用coproc命令)的功能了(ksh和zsh老早就支援協程),但是協程的需求都能通過命名管道來實現。

一般的管道都是單向通訊的,無法實現雙向通訊的功能,也就是只能一邊寫一邊讀,不能兩邊都能讀、寫。如果要實現雙向通訊,可以建立兩根管道(這樣就有4個檔案控制代碼,兩個讀端,兩個寫端),或者使用更方便的通訊端。

通訊端(Socket)

通訊端用來實現兩端通訊,正如上面分析的,可以實現雙向管道的進程間通訊功能。不僅如此,通訊端還能通過網路實現跨主機的進程間通訊功能。

通訊端需要成對才有意義,也就是分為兩端,每一端都有用於讀、寫的檔案描述符(或檔案控制代碼),相當於兩根雙向通訊的管道。

通訊端根據協定族的方式分為兩大類:網路通訊端(AF_INET型別,根據ipv4和ipv6分為inet4和inet6)和Unix Domain通訊端(AF_UNIX型別)。當然,從協定族往下,通訊端可細分為很多種型別,例如INET通訊端可以分為TCP通訊端、UDP通訊端、鏈路層通訊端、Raw通訊端等等。其中網路通訊端是網路程式設計的基礎和核心。

Unix Domain通訊端

對於單機的進程間通訊,使用Unix Domain通訊端比Inet通訊端更好,因為Unix Domain通訊端沒有網路通訊元件,也就是少了很多網路功能,它更加輕量級。實際上,某些語言在某些作業系統平台上實現的管道功能就是通過Unix Domain來實現的,可想而知其高效率。

Unix Domain通訊端有兩個檔案控制代碼(例如A、B),這兩個檔案控制代碼都是同時可讀、可寫的控制代碼。進程1向A寫入資料,將自動推播到B上,進程2可從B上讀取從A寫入的資料,同理進程2向B中寫入資料將自動推播到A上,進程1可從A上讀取從B寫入的資料。如下:

1
2
3
4
進程1            進程2
------------------------
A   ----------->  B
B   ----------->  A

在程式語言中,建立Unix Domain Socket自然有對應的函數輕鬆建立(可man socketpair)。對於bash shell,可以通過nc命令(NetCat)來建立,或者乾脆使用兩個命名管道來實現對應的功能。如有需要,可自行了解如何在bash shell中使用Unix Domain通訊端。

網路通訊端

對於跨網路的進程間通訊,需要使用網路通訊端。每個網路通訊端都由5部分組成,它們稱為通訊端的5元組。格式如下:

{protocol, src_addr, src_port, dest_addr, dest_port}

即協定、源地址、源埠、目標地址、目標埠。

每端通訊端在核心空間都有兩個buffer(即一對socket有4個buffer),每一端都有recv buffer和send buffer。進程1向自己的通訊端的send buffer寫入資料,將傳送到對端的recv buffer中,然後對端的進程2就可以從recv buffer中讀取資料,反之亦然。

但是在真正可以讀、寫網路通訊端之前,網路通訊端還需要一些設定。伺服器端通訊端建立(socket()函數,建立後就會有一個檔案控制代碼或檔案描述符供讀、寫操作)後,還要繫結地址(通過bind()函數)和監聽埠(通過listen()函數),用戶端則只需要建立通訊端後,直接使用connect()函數向伺服器端通訊端發起連線請求即可。

對於TCP通訊端,用戶端發起連線請求即表示要和伺服器端進行三次握手(核心完成,和使用者空間進程無關)。將這三次握手的每一次進行細分,第一次用戶端傳送SYN請求,伺服器端接收到SYN後,核心將這個連線放進syn queue中並設定狀態為syn-recv,然後傳送ack+syn給用戶端,當接收到用戶端回復ack後,核心將連線從syn queue移到established queue(或accept queue)中並將連線的狀態標記為established。最後等待使用者空間的進程發起accept()系統呼叫讓核心將其從accept queue中移除。被accept()後的連線表示已經建立好的連線,可以真正實現兩端進程間的資料傳輸。

塊裝置和字元裝置

塊裝置是硬體裝置,通過隨機(不一定是順序)存取固定大小的資料塊(chunk)來區分。固定大小的chunk稱為塊(block)。最常見的塊裝置是硬碟,但也存在許多其他塊裝置,如軟碟機、藍光閱讀器和快閃記憶體。注意,這些都是掛載檔案系統的裝置,檔案系統就像是塊裝置的通用語言。

字元裝置通過連續的流資料存取,一個位元組接著一個位元組。典型的字元裝置是終端(終端分多種,由物理的也有虛擬的)和鍵盤

區分塊裝置和字元裝置最簡單的方法是看資料存取的方式。能隨機存取獲取資料的是塊裝置,必須按位元組順序存取的是字元裝置

如果可以這裡讀一點資料,那裡讀一點資料,最後串成一整段連續的資料,那麼這個就是塊裝置,就像硬碟上的資料是不連續的,有可能需要通過隨機存取的方式獲取一段資料。比如磁碟上一個稍大一點的檔案,可能前10k資料是連續的資料塊或在連續的磁區內,之後的10k資料在離它很遠甚至在不同的柱面上。

如果一段資料中的每個位元組都跟存取時的位元組順序是一樣的,即位元組先後順序從存取獲取時到最後處理資料的過程中都是完全一致的,那麼這個就是字元裝置。換句話說,字元裝置可以看作是流裝置。就像鍵盤輸入資料一樣,連續敲兩個字鍵,這兩個鍵對應的位元組資料在被接收的時候一定是先敲的在前面,後敲的在後面。同理終端裝置也是以一樣的,程式將資料輸出到終端時,程式先輸出字母a再輸出數位3,那麼顯示在終端上時一定是a在前,3在後。


IT145.com E-mail:sddin#qq.com