網傳位元組跳動實習生刪除GB以下所有機器學習模型，差點沒上頭條……

2021-06-25 03:23:03

大資料文摘授權轉載自AI科技評論

作者：陳大鑫、陳彩嫻

昨晚脈脈上有網友爆料，位元組跳動一位實習生刪除了公司所有輕量級別的機器學習模型！

什麼是lite模型？該樓主表示，lite模型就是公司內幾乎所有GB大小以下的機器學習模型，且全部被刪除了，實習生直接刪除的是父目錄且加了 skip trash （刪除檔案時臨時禁用回收）操作，導致被刪除模型無法被恢復。

當晚全公司通報，直接被列入 P0 事故等級（嚴重事故）：

據樓層討論，光是處理問題的群就進了接近三百人，其殃及業務之廣可想而知：

大家都在討論這位實習生的去留，我們搜了一下，據說，「只要不是主觀故意的」就不會被開除：

所以說一定要穩住別慌，問題不大。

網友熱議

有網友表示這是實習生給你們這幫人出了一道hard題，不過沒有標準答案，考驗你們解題能力的時候到了。

還有網友表示實習生不能有許可權操作這麼重要的東西，這鍋80%應該判給管理者，實習生反倒是暴露了問題，換個角度來看，實習生立功了。

我們知道，位元組跳動最出名的文化之一，就是扁平化管理。實習生與正式員工有同樣的文件許可權，這也是位元組能夠在與BAT等大廠競爭中保持靈活高效的祕訣，從這個角度上來說，說實習生立功倒也不能算錯。

而別的對手就許可權不一了。

到底刪除了多少模型？根據位元組網友後來發到網上的疑似截圖顯示，被刪除的只是：「Lagrange Lite 全量 Batch模型的備份」，且顯示為「被誤刪」。

又有位元組的工程師網友表示刪除的都是離線資料，影響不大。該樓主好像對此事非常熱衷，全程線上跟帖，表示「確實影響不大但是麻煩，重新訓練模型和延遲上線理論上都會對指標有負向只是不那麼明顯了」。

2018年據英國《金融時報》報道，谷歌內部一位實習生無意中犯下一個「小」錯誤，導致一則沒有意義的廣告投放到「大量」網頁和應用中，持續了大約為45分鐘，相關費用和清理成本達到1000萬美元，真可謂小手一抖，千萬元沒有。

位元組 AI

位元組都有什麼出名的機器學習產品？

位元組跳動最早是以今日頭條來闖蕩江湖，在今日頭條以及後來的抖音和火山等產品上肯定用到了不少機器學習推薦演算法，這就先不提了。此外，在抖音這款「有毒」的產品上，也時不時見到各種運用 AI 演算法來做人臉變化的技術應用，比如最近的在抖音上比較火的重返3歲的AI特效等等。

據 AI科技評論所知，位元組還開源過一個名為LightSeq的序列推理引擎，它對以 Transformer 為基礎的序列特徵提取器（Encoder）和自迴歸的序列解碼器（Decoder）做了深度優化，早在 2019 年 12 月就已經開源，應用在了包括火山翻譯等眾多業務和場景。

據瞭解，這應該是業界第一款完整支援 Transformer、GPT 等多種模型高速推理的開源引擎。

LightSeq 可以應用於機器翻譯、自動問答、智慧寫作、對話回覆生成等眾多文字生成場景，大大提高線上模型推理速度，改善使用者的使用體驗。相比於目前其他開源序列推理引擎，LightSeq具有如下幾點優勢：1. 高效能；2. 支援模型功能多； 3. 簡單易用，無縫銜接Tensorflow、PyTorch等深度學習框架。據 AI科技評論所知，位元組跳動AI Lab最近計劃要開源「新版訓練加速引擎」，可以讓模型訓練加速3倍以上。

最後，據這次的誤刪除事件來看，1GB 的模型其實不算大，大概只有幾億的參數量級，反觀現在 AI 江湖動則千億萬億起步的模型，1GB以下的模型真的不算大，算不上是決定性的模型。或許此次事件對位元組只是一件不痛不癢的小事，位元組的高層或許壓根不知道此事，畢竟這又不是刪庫跑路。

網傳位元組跳動實習生刪除GB以下所有機器學習模型，差點沒上頭條……

熱門文章