首頁 > 軟體

shell指令碼範例:批次比較多個檔案的內容是否相同

2020-06-16 17:09:05

要比較兩個檔案的內容是否完全一致,可以簡單地使用diff命令。例如:

diff file1 file2 &>/dev/null;echo $?

但是diff命令只能給定兩個檔案引數,因此無法一次性比較多個檔案(目錄也被當作檔案),而且diff比較非文字類檔案或者極大的檔案時效率極低。

這時可以使用md5sum來實現,相比diff的逐行比較,md5sum的速度快的多的多。

md5sum的使用方法見:Linux中檔案MD5校驗

但md5sum只能通過檢視md5值來間接比較檔案是否相同,要實現批次自動比較,則需要寫成迴圈。指令碼如下:

#!/bin/bash
###########################################################
#  description: compare many files one time               #
#  author     : 駿馬金龍                                   #
#  blog       : http://www.cnblogs.com/f-ck-need-u/       #
###########################################################

# filename: md5.sh
# Usage: $0 file1 file2 file3 ...

IFS=$'n'
declare -A md5_array

# If use while read loop, the array in while statement will
# auto set to null after the loop, so i use for statement
# instead the while, and so, i modify the variable IFS to
# $'n'.

# md5sum format: MD5  /path/to/file
# such as:80748c3a55b726226ad51a4bafa1c4aa /etc/fstab
for line in `md5sum "$@"`
do
    index=${line%% *}
    file=${line##* }
    md5_array[$index]="$file ${md5_array[$index]}"
done

# Traverse the md5_array
for i in ${!md5_array[@]}
do
    echo -e "the same file with md5: $in--------------n`echo ${md5_array[$i]}|tr ' ' 'n'`n"
done 

為了測試該指令碼,先複製幾個檔案,並修改其中幾個檔案的內容,例如:

[root@linuxidc ~]# for i in `seq -s' ' 6`;do cp -a /etc/fstab /tmp/fs$i;done
[root@linuxidc ~]# echo ha >>/tmp/fs4
[root@linuxidc ~]# echo haha >>/tmp/fs5

現在,/tmp目錄下有6個檔案fs1、fs2、fs3、fs4、fs5和fs6,其中fs4和fs5被修改,剩餘4個檔案內容完全相同。

[root@linuxidc tmp]# ./md5.sh /tmp/fs[1-6]
the same file with md5: a612cd5d162e4620b442b0ff3474bf98
--------------------------
/tmp/fs6
/tmp/fs3
/tmp/fs2
/tmp/fs1

the same file with md5: 80748c3a55b726226ad51a4bafa1c4aa
--------------------------
/tmp/fs4

the same file with md5: 30dd43dba10521c1e94267bbd117877b
--------------------------
/tmp/fs5

更具通用性地比較方法:比較多個目錄下的同名檔案。

[root@linuxidc tmp]# find /tmp -type f -name "fs[0-9]" -print0 | xargs -0 ./md5.sh  
the same file with md5:a612cd5d162e4620b442b0ff3474bf98
--------------------------
/tmp/fs6
/tmp/fs3
/tmp/fs2
/tmp/fs1

the same file with md5:80748c3a55b726226ad51a4bafa1c4aa
--------------------------
/tmp/fs4

the same file with md5:30dd43dba10521c1e94267bbd117877b
--------------------------
/tmp/fs5

指令碼說明:

(1).md5sum計算的結果格式為"MD5 /path/to/file",因此要在結果中既輸出MD5值,又輸出相同MD5對應的檔案,考慮使用陣列。

(2).一開始的時候我使用while迴圈,從標準輸入中讀取每個檔案md5sum的結果。語句如下:

md5sum "$@" | while read index file;do
    md5_array[$index]="$file ${md5_array[$index]}"
done

但由於管道使得while語句在子shell中執行,於是while中賦值的陣列md5_array在迴圈結束時將失效。所以可改寫為:

while read index file;do
    md5_array[$index]="$file ${md5_array[$index]}"
done <<<"$(md5sum "$@")"

不過我最終還是使用了更繁瑣的for迴圈:

IFS=$'n'
for line in `md5sum "$@"`
do
    index=${line%% *}
    file=${line##* }
    md5_array[$index]="$file ${md5_array[$index]}"
done

md5sum的每行結果中有兩列,而for迴圈採用預設的IFS會將這兩列分割為兩個值,因此還修改了IFS變數的值為$'n',使得一行賦值一次變數。

(3).index和file變數是為了將md5sum的每一行結果拆分成兩個變數,MD5部分作為陣列的index,file作為陣列變數值的一部分。因此,陣列賦值語句為:

md5_array[$index]="$file ${md5_array[$index]}"

(4).陣列賦值完成後,開始遍歷陣列。遍歷的方法有多種。我採用的是遍歷陣列的index列表,即每行的MD5值。

# Traverse the md5_array
for i in ${!md5_array[@]}
do
    echo -e "the same file with md5: $in--------------n`echo ${md5_array[$i]}|tr ' ' 'n'`n"
done  

本文永久更新連結地址http://www.linuxidc.com/Linux/2017-08/146536.htm


IT145.com E-mail:sddin#qq.com