人類評估已不是NLG的最佳標準，華盛頓大學提出新觀點遭網友質疑

2021-07-17 03:04:18

明敏發自凹非寺量子位報道 | 公眾號 QbitAI

AI生成的文字好不好，最權威的評估者竟然不是人類自己？

最近，華盛頓大學和艾倫人工智慧研究院的學者們在研究中發現：

未經過訓練的人類評估文字時，往往過分關注生成文字像不像人話，而忽略了生成文字更重要的問題，即它的內容是否正確、合乎邏輯。

研究人員就給出了一個例子：

他們分別讓未經訓練的人類和機器來評價一段GPT-3生成的文字。

這段文字翻譯過來為：

從前，有一個海盜。他是那種寧願把時間花在驅趕在船周圍游泳的鯊魚上，也不願駛向外國港口尋找戰利品的海盜。他是個好海盜，高尚的海盜，誠實的海盜。他是個寧願和妻兒呆在家裡也不願出海的海盜。

人類評估員認為這段文字除了有些囉嗦外，沒什麼大毛病。

這可能就是一個海盜想回家陪老婆孩子吧，AI可能沒理解，但是這也沒什麼稀奇的。

機器評估也認為這段文字很囉嗦，不過它對文段的內容提出了質疑：

海盜會有老婆孩子？還不和他一起在船上生活？

對比兩種判斷，人類評估更看重這段話像不像人話，在檢驗過它的確非常流暢後，就會預設這段文字沒什麼大問題了。

而機器的判斷角度則更加多維，會考慮到文字傳達的意思是否正確。

很難分辨出GPT-3生成的文字

為了驗證自己的觀點，研究人員讓未經訓練的評估人員來區分人類寫的文字和AI生成的文字。

他們選擇了故事、新聞、菜譜三種不同的文體進行測試。

具體測試中，受試人員不僅要判斷給出的文字是否人類創作的，還要填寫相應的理由。

結果顯示，在區分人類和GPT-2創作的文字時，被測試群體的正確率為57.9%。

但是在區分GPT-3生成的文字上，正確率就下降到了49.9%。

而二選一問題的隨機概率就有50%……

顯然，普通人已經很難識別出當下最先進的NLG模型所生成的文字。

為了更進一步瞭解受試人員是如何做出判斷的，研究人員對150個回答進行了分析。

結果發現，受試人員在做出判斷後，更加傾向於從文字的格式、風格、語法角度上給出理由。

150個回答中，基於文字形式的判斷幾乎是基於內容判斷的2倍。

但是，GPT-3在文字流暢度方面的表現其實已經非常出色，這或許也是為什麼人類很難分辨GPT-3生成文字。

而且研究人員發現，受試人員給出判斷的理由都不盡相同，這也表明人類評估文字沒有一個明確的標準。

既然NLG模型訓練後可以變強，那培訓一下評估人員呢？

研究人員決定對一些受試人員進行了培訓，提高他們評估文字的能力和速度。

他們準備了3種不同的培訓：

第一種是給出明確的判斷標準，讓受試人員學習後來判斷；

第二種是通過大量的例項訓練，也就是題海戰術；

第三種是通過不斷對比來完成訓練。

然而結果表明，這好像並沒有什麼用。

三種培訓後的判斷正確率分別為52%、55%、53%，相較於未受訓時的表現，沒有顯著提高。

不過從受試人員的回答中可以看到，更多人現在會多維度判斷文字了，還是有進步的。

基於這樣的實驗結果，研究人員認為在評估最先進的NLG模型方面，人類可能真的不太靠譜了。

這實驗不太靠譜

對於這樣的結論，網友們提出了一些不同的看法：

判斷文字質量其實是一件非常艱鉅的任務，需要專家來進行評估。或許是這項研究中的受試人員不太行？

有人就指出了問題所在：他們用的Amazon Mechanical Turk的評估員。

是受試人員不太行。

AMTurk作為一個眾包平臺，近年來實在是飽受詬病。

此前BBC報道稱，由於招募到的志願者所在的地區存在一些觀念偏見，導致最後研究出的演算法也存在偏見。

而且招募到的人員水平也常常參差不齊。

不過有人也表示：這些人可能也是最適合的，因為他們最接近普通大眾水平，專家認為好的文字，普通人未必也這麼認為。

這要取決於生成文字的目標人群是誰。實驗中的志願者對喬伊斯（後現代文學作家）的欣賞程度肯定和英文系教授不同。儘管頂級文學評論家將其描述為「20世紀實驗文學的偉大紀念碑之一」和「英語中最美麗的散文詩之一」，但對於大多數普通讀者而言，它非常晦澀難懂。

此外，也有人就對這項研究提出了改進建議：

我認為他們可以用更簡單的NLG演算法(基於規則，n-gram, rnn)進行更精細的分析，並對「非專家」評估者進行排名，而不是將他們作為一個群體來處理。

而關於NLG模型生成文字的評估問題，谷歌曾給出過一個方案。

2020年，它們提出了一個可量化評估NLG模型效能的指標——BLEURT。

這是一個基於BERT的學習評價指標，在學習了幾千個人類評估案例後，它可以對不同模型生成的文字進行打分。

其最大的優勢就是，評估速度更快。

谷歌研究人員認為這個指標有助於NLG模型的研究和開發，而且可以為開發人員提供更加多維的評判標準。

論文地址：https://arxiv.org/pdf/2107.00061.pdf

參考連結：[1]https://www.reddit.com/r/MachineLearning/comments/ok6c4k/r_human_evaluations_no_longer_the_gold_standard/[2]https://arxiv.org/abs/2004.04696

人類評估已不是NLG的最佳標準，華盛頓大學提出新觀點遭網友質疑

熱門文章