首頁 > 軟體

阿里雲紀錄檔服務紀錄檔過濾器設定

2022-04-08 19:00:31

紀錄檔收集流程

對於紀錄檔收集的使用者端,其work pipeline通常包括三個過程:Input,Process,Output。

  • Input: 適配各類紀錄檔接入源,目前Logtail支援文字檔案、Syslog(TCP流式)兩種形式資料寫入。
  • Process:自定義紀錄檔處理邏輯,常見的有:紀錄檔切分、紀錄檔編碼轉換、紀錄檔結構化解析、紀錄檔過濾等等。
  • Output:定義紀錄檔輸出,例如Logtail以HTTP協定寫資料到紀錄檔服務。

今天要介紹Logtail在紀錄檔處理階段的兩個新功能:轉碼、過濾

紀錄檔轉碼

紀錄檔服務限制資料的字元編碼為UTF-8,這也是Logtail在傳送資料階段對於字元編碼的要求。

但可能一些較老的應用元件在處理中文的時候,會列印GBK編碼的資料到紀錄檔檔案。

這種情況下,你可以在Logtail設定的高階選項中,選擇紀錄檔檔案編碼為”GBK“。那麼,Logtail在採集紀錄檔時,會對紀錄檔內容先做GBK到UTF-8的編碼轉換,再進行後續處理。

Logtail目前支可以支援UTF-8和GBK兩種檔案編碼格式。對於GBK格式,Logtail使用Linux系統的iconv API,編碼轉換過程中會額外消耗機器計算資源。

問:如何判斷我的GBK紀錄檔檔案是否可以通過Logtail收集?
答:在Linux Shell下使用iconv命令進行轉碼測試,假設紀錄檔檔名為gbk.log,執行命令:

iconv -f GBK -t UTF-8 gbk.log -o gbk_to_utf8.log

如果執行成功則說明檔案編碼是GBK;如執行失敗(類似iconv: illegal input sequence at position 2743錯誤),則說明檔案不是合法的GBK編碼,無法通過Logtail做編碼轉換,請嘗試調整應用輸出的紀錄檔檔案編碼格式為UTF-8。

紀錄檔過濾

舉一個web伺服器的例子,Nginx每時每刻接收大量請求,並在access.log記錄這些請求:

10.200.98.220 - - [25/May/2016:14:55:42 +0800] "HEAD sls-pub.alibaba-inc.com/projects/ali-cn-hangzhou-sls-admin/logstores HTTP/1.1" 0.024 18204 200 37 "-" "aliyun-sdk-java" 13605
10.200.98.220 - - [25/May/2016:14:55:42 +0800] "POST sls-pub.alibaba-inc.com/projects/ali-cn-hangzhou-sls-admin/logstores HTTP/1.1" 0.024 18204 404 37 "-" "ali-log-logtail" 13608
10.200.98.220 - - [25/May/2016:14:55:42 +0800] "PUT sls-pub.alibaba-inc.com/projects/ali-cn-hangzhou-sls-admin/logstores HTTP/1.1" 0.024 18204 401 37 "-" "aliyun-sdk-java" 13609
10.200.98.220 - - [25/May/2016:14:55:42 +0800] "PUT sls-pub.alibaba-inc.com/projects/ali-cn-hangzhou-sls-admin/logstores HTTP/1.1" 0.024 18204 502 37 "-" "aliyun-sdk-java" 13610
10.200.98.220 - - [25/May/2016:14:55:42 +0800] "GET sls-pub.alibaba-inc.com/projects/ali-cn-hangzhou-sls-admin/logstores HTTP/1.1" 0.024 18204 401 37 "-" "cpp-sdk-0.6" 13612
10.200.98.220 - - [25/May/2016:14:55:42 +0800] "PUT sls-pub.alibaba-inc.com/projects/ali-cn-hangzhou-sls-admin/logstores HTTP/1.1" 0.024 18204 400 37 "-" "cpp-sdk-0.6" 13614
10.200.98.220 - - [25/May/2016:14:55:42 +0800] "POST sls-pub.alibaba-inc.com/projects/ali-cn-hangzhou-sls-admin/logstores HTTP/1.1" 0.024 18204 400 37 "-" "ali-log-logtail" 13615
10.200.98.220 - - [25/May/2016:14:55:42 +0800] "HEAD sls-pub.alibaba-inc.com/projects/ali-cn-hangzhou-sls-admin/logstores HTTP/1.1" 0.024 18204 200 37 "-" "cpp-sdk-0.6" 13616

對於問題調查的場景,HTTP 200請求的紀錄檔量通常是巨大的,如果我們希望降低紀錄檔儲存的成本,只上傳發生異常的請求紀錄檔,應該怎麼來做呢?

在今天,你可以開啟Logtail設定的高階選項,設定過濾器來解決資料過濾的問題。

如上圖所示,分別對url欄位和status欄位設定了兩個過濾器。指定欄位Key存在且Value符合正規表示式的紀錄檔會被保留。

定義多個過濾器的時候,判斷條件是“與”的關係,滿足所有過濾器設定的紀錄檔是合法的,否則被丟棄。

對於一條紀錄檔,當url欄位與"(POSTs.)|(GETs.)"匹配成功且status欄位與"[345]d+"匹配成功的時候(只採集POST、GET請求且狀態碼非200的紀錄檔),Logtail將該紀錄檔上傳至紀錄檔服務,如下圖所示:

如果設定過濾器的欄位名在紀錄檔裡找不到,那麼這條紀錄檔也是不合法的,需要被丟棄。預設情況下,使用者沒有任何過濾器設定的情況下,所有被Logtail讀取並解析成功的紀錄檔資料都會寫入紀錄檔服務。

範例設定:

只收集匹配到 topic  為  action 或者 plugin 的紀錄檔 

更多關於阿里雲紀錄檔服務紀錄檔過濾器設定技術文章請檢視下面的相關連結


IT145.com E-mail:sddin#qq.com