首頁 > 軟體

Node.js程序退出的深入理解

2022-04-02 13:00:02

背景介紹

在我們的服務釋出後,難免會被執行環境(如容器、pm2 等)排程、升級服務導致重啟、各種異常導致程序崩潰;一般情況下,執行環境都有對服務程序的健康監測,在程序異常時,會重新拉起程序,在升級時,也有捲動升級的策略。但執行環境的排程策略是把我們服務的程序當成黑盒來處理的,不會管服務程序內部的執行情況,因此需要我們的服務程序主動感知執行環境的排程動作,然後做一些退出的清理動作。

因此我們今天就是梳理各種可能導致 Node.js 程序退出的情況,以及我們可以通過監聽這些程序退出事件做哪些事情。

原理

一個程序要退出,無非就是兩種情況,一是程序自己主動退出,另外就是收到系統訊號,要求程序退出。

系統訊號通知退出

Node.js 官方檔案 中列出了常見的系統訊號,我們主要關注幾個:

  • SIGHUP:不通過 ctrl+c 停止程序,而是直接關閉命令列終端,會觸發該訊號
  • SIGINT:按下 ctrl+c 停止程序時觸發;pm2 重啟或者停止子程序時,也會向子程序傳送該訊號
  • SIGTERM:一般用於通知程序優雅退出,如 k8s 刪除 pod 時,就會向 pod 傳送 SIGTERM 訊號,pod 可以在超時時間內(預設 30s)做一些退出清理動作
  • SIGBREAK:在 window 系統上,按下 ctrl+break 會觸發該訊號
  • SIGKILL:強制退出程序,程序無法做任何清理動作,執行命令 kill -9 pid,程序會收到該訊號。k8s 刪除 pod 時,如果超過 30s,pod 還沒退出,k8s 會向 pod 傳送 SIGKILL 訊號,立即退出 pod 程序;pm2 在重啟或者停止程序時,如果超過 1.6s,程序還沒退出,也會傳送 SIGKILL 訊號

在收到非強制退出訊號時,Node.js 程序可以監聽退出訊號,做一些自定義的退出邏輯。比如我們寫了一個 cli 工具,需要比較長的時間執行任務,如果使用者在任務執行完成前想要通過 ctrl+c 退出程序時,可以提示使用者再等等:

const readline = require('readline');

process.on('SIGINT', () => {
  // 我們通過 readline 來簡單地實現命令列裡面的互動
  const rl = readline.createInterface({
    input: process.stdin,
    output: process.stdout
  });
  rl.question('任務還沒執行完,確定要退出嗎?', answer => {
    if (answer === 'yes') {
      console.log('任務執行中斷,退出程序');
      process.exit(0);
    } else {
      console.log('任務繼續執行...');
    }
    rl.close();
  });
});

// 模擬一個需要執行 1 分鐘的任務
const longTimeTask = () => {
  console.log('task start...');
  setTimeout(() => {
    console.log('task end');
  }, 1000 * 60);
};

longTimeTask();

實現效果如下,每次按下 ctrl + c 都會提示使用者:

程序主動退出

Node.js 程序主動退出,主要包含下面幾種情況:

  • 程式碼執行過程中觸發了未捕獲的錯誤,可以通過 process.on('uncaughtException') 監聽這種情況
  • 程式碼執行過程中觸發了未處理的 promise rejection(Node.js v16 開始會導致程序退出),可以通過 process.on('unhandledRejection') 監聽這種情況
  • EventEmitter 觸發了未監聽的 error 事件
  • 程式碼中主動呼叫 process.exit 函數退出程序,可以通過 process.on('exit') 監聽
  • Node.js 的事件佇列為空,可簡單認為沒有需要執行的程式碼了,可以通過 process.on('exit') 監聽

我們知道 pm2 有守護行程的效果,在你的程序發生錯誤退出時,pm2 會重啟你的程序,我們也在 Node.js 的 cluster 模式下,實現一個守護子程序的效果(實際上 pm2 也是類似的邏輯):

const cluster = require('cluster');
const http = require('http');
const numCPUs = require('os').cpus().length;
const process = require('process');

// 主程序程式碼
if (cluster.isMaster) {
  console.log(`啟動主程序: ${process.pid}`);
  // 根據 cpu 核數,建立工作程序
  for (let i = 0; i < numCPUs; i++) {
    cluster.fork();
  }
  // 監聽工作程序退出事件
  cluster.on('exit', (worker, code, signal) => {
    console.log(`工作程序 ${worker.process.pid} 退出,錯誤碼: ${code || signal}, 重啟中...`);
    // 重啟子程序
    cluster.fork();
  });
}

// 工作程序程式碼
if (cluster.isWorker) {
  // 監聽未捕獲錯誤事件
  process.on('uncaughtException', error => {
    console.log(`工作程序 ${process.pid} 發生錯誤`, error);
    process.emit('disconnect');
    process.exit(1);
  });
  // 建立 web server
  // 各個工作程序都會監聽埠 8000(Node.js 內部會做處理,不會導致埠衝突)
  http.createServer((req, res) => {
    res.writeHead(200);
    res.end('hello worldn');
  }).listen(8000);
  console.log(`啟動工作程序: ${process.pid}`);
}

應用實踐

上面分析了 Node.js 程序退出的各種情況,現在我們來做一個監聽程序退出的工具,在 Node.js 程序退出時,允許使用方執行自己的退出邏輯:

// exit-hook.js
// 儲存需要執行的退出任務
const tasks = [];
// 新增退出任務
const addExitTask = fn => tasks.push(fn);
const handleExit = (code, error) => {  
  // ...handleExit 的實現見下面
};
// 監聽各種退出事件
process.on('exit', code => handleExit(code));
// 按照 POSIX 的規範,我們用 128 + 訊號編號 得到最終的退出碼
// 訊號編號參考下面的圖片,大家可以在 linux 系統下執行 kill -l 檢視所有的訊號編號
process.on('SIGHUP', () => handleExit(128 + 1));
process.on('SIGINT', () => handleExit(128 + 2));
process.on('SIGTERM', () => handleExit(128 + 15));
// windows 下按下 ctrl+break 的退出訊號
process.on('SIGBREAK', () => handleExit(128 + 21));
// 退出碼 1 代表未捕獲的錯誤導致程序退出
process.on('uncaughtException', error => handleExit(1, error));
process.on('unhandledRejection', error => handleExit(1, error));

訊號編號:

接下來我們要實現真正的程序退出函數 handleExit,因為使用者傳入的任務函數可能是同步的,也可能是非同步的;我們可以藉助 process.nextTick 來保證使用者的同步程式碼都已經執行完成,可以簡單理解 process.nextTick 會在每個事件迴圈階段的同步程式碼執行完成後執行(理解 process.nextTick);針對非同步任務,我們需要使用者呼叫 callback 來告訴我們非同步任務已經執行完成了:

// 標記是否正在退出,避免多次執行
let isExiting = false;
const handleExit = (code, error) => {
  if (isExiting) return;
  isExiting = true;

  // 標記已經執行了退出動作,避免多次呼叫
  let hasDoExit = fasle;
  const doExit = () => {
      if (hasDoExit) return;
      hasDoExit = true
      process.nextTick(() => process.exit(code))
  }

  // 記錄有多少個非同步任務
  let asyncTaskCount = 0;
  // 非同步任務結束後,使用者需要呼叫的回撥
  let ayncTaskCallback = () => {
      process.nextTick(() => {
        asyncTaskCount--
        if (asyncTaskCount === 0) doExit() 
      })
  }
  // 執行所有的退出任務

  tasks.forEach(taskFn => {
      // 如果 taskFn 函數的引數個數大於 1,認為傳遞了 callback 引數,是一個非同步任務
      if (taskFn.length > 1) {
         asyncTaskCount++
         taskFn(error, ayncTaskCallback)
      } else {
          taskFn(error)
      }
  });

  // 如果存在非同步任務
  if (asyncTaskCount > 0) {
      // 超過 10s 後,強制退出
      setTimeout(() => {
          doExit();
      }, 10 * 1000)
  } else {
      doExit()
  }
};

至此,我們的程序退出監聽工具就完成了,完整的實現可以檢視這個開源庫 async-exit-hook

程序優雅退出

通常我們的 web server 在重啟、被執行容器排程(pm2 或者 docker 等)、出現異常導致程序退出時,我們希望執行退出動作,如完成已經連線到服務的請求響應、清理資料庫連線、列印錯誤紀錄檔、觸發告警等,做完退出動作後,再退出程序,我們可以使用剛才的程序退出監聽工具實現:

const http = require('http');

// 建立 web server
const server = http.createServer((req, res) => {
  res.writeHead(200);
  res.end('hello worldn');
}).listen(8000);

// 使用我們在上面開發的工具新增程序退出任務
addExitTask((error, callback) => {
   // 列印錯誤紀錄檔、觸發告警、釋放資料庫連線等
   console.log('程序異常退出', error)
   // 停止接受新的請求
   server.close((error) => {
       if (error) {
         console.log('停止接受新請求錯誤', error)
       } else {
         console.log('已停止接受新的請求')
       }
   })
   // 比較簡單的做法是,等待一定的時間(這裡我們等待 5s),讓存量請求執行完畢
   // 如果要完全保證所有請求都處理完畢,需要記錄每一個連線,在所有連線都釋放後,才執行退出動作
   // 可以參考開源庫 https://github.com/sebhildebrandt/http-graceful-shutdown
   setTimout(callback, 5 * 1000)
})

總結

通過上面的文字,相信你已經對導致 Node.js 程序退出的各種情況心裡有數了。在服務上線後,雖然 k8s、pm2 等工具能夠在程序異常退出時,不停地拉起程序,保證服務的可用性,但我們也應該在程式碼中主動感知程序的異常或者被排程的情況,從而能夠更早發現問題。

到此這篇關於Node.js程序退出的文章就介紹到這了,更多相關Node.js程序退出內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com!


IT145.com E-mail:sddin#qq.com