AI在這張“問卷”上首次超越人類,SuperGLUE被微軟谷歌兩家“攻破”

原文 量子位(@QbitAI)

自然語言理解(NLU)迎來新的里程碑。

在最新的NLU測試基準SuperGLUE中,人類首次被AI超越了。

SuperGLUE相比“前輩”GLUE大大提升了問題的難度,提出一年多以來,人類一直處於第一位。

現如今,人類一下子被兩家AI超越。

一個是來自微軟的DeBERTa,一個是來自谷歌的T5+Meena

超越人類的兩大NLU模型

對NLP領域的人來說,微軟DeBERTa模型並不陌生,早在去年8月微軟就開源了該模型的程式碼,並提供預訓練模型下載。

最近,最近微軟訓練了更大規模的模型,該版本由15億引數的48個Transformer層組成。增大規模帶來的效能提升,使單個DeBERTa模型SuperGLUE上的得分(90.3)首次超過了人類(89.8),居於榜單首位。

DeBERTa(注意力分離的解碼增強BERT)是一種基於Transformer的神經語言模型,使用自監督學習對大量原始文字語料庫進行預訓練。

和其他預訓練語言模型(PLM)一樣,DeBERTa旨在學習通用語言表示形式,適應各種下游NLU任務。DeBERTa使用三種新技術 — — 分離的注意力機制、增強的掩碼解碼器和一種用於微調的虛擬對抗訓練方法。改進了以前的最新PLM(如BERT、RoBERTa、UniLM)。

這項研究是由微軟研究團隊的4位華人學者完成。

另一超越人類的AI是由CMU博士生王子瑞提交的T5+Meena。這兩項技術均來自谷歌。

其中,Meena是一個26億引數端到端訓練的神經對話模型,它具有一個演進Transformer編碼器塊和13個演進Transformer解碼器塊。

編碼器負責處理對話上下文,幫助Meena理解對話中已經說過的內容。然後,解碼器使用該資訊來制定實際響應。

T5是谷歌去年提出的“文字到文字遷移Transformer”,也就是用遷移學習讓不同的NLP任務可以使用相同的模型、損失函式和超引數,一個框架在機器翻譯、檔案摘要、問答和情感分析上都能使用。

T5最大的模型具有110億個引數,早在推出之時就取得了SuperGLUE上的最高水平,至今仍僅次於榜單前二模型和人類。

關於SuperGLUE

SuperGLUE是由Facebook、紐約大學、華盛頓大學和DeepMind四家機構於2019年8月提出的新NLU測試基準,以取代過去的GLUE。

由於之前微軟、谷歌和Facebook的模型連續重新整理GLUE基準測試得分,已有不少AI模型超越了人類的表現。因此GLUE已不能順應NLU技術的發展,SuperGLUE應運而生。

我們從最初的GLUE基準測試中吸取的經驗教訓,並推出了SuperGLUE,這是一個採用了GLUE的新基準測試,具有一系列更加困難的語言理解任務、改進的資源和一個新的公共排行榜。

四家機構在SuperGLUE的官方檔案中如是說。

SuperGLUE總共包含10項任務,用於測試系統因果推理、識別因果關係、閱讀短文後回答是非問題等等方面的能力。SuperGLUE還包含Winogender,一種性別偏見檢測工具。

這些問題用當前最先進的演演算法還不能很好地解決,卻很容易被人類理解。

尤其是“選擇合理的替代方案”(COPA)這一項因果推理任務。它要求系統能根據給出的句子,在兩個選項中找出可能的原因或結果。比如:

那個男人的腳趾斷了。這是什麼原因造出的?
備選答案1:他的襪子上有一個洞。
備選答案2:他把錘子掉在腳上了。

人類可以在COPA上獲得了100%的準確率,而BERT只有74%,這表明了NLU還存在巨大的進步空間。

現在SuperGLUE上超越了人類表現,微軟的研究人員認為:“這是通向通用AI的重要里程碑”。

微軟DeBERTa原始碼與預訓練模型:
https://github.com/microsoft/DeBERTa

谷歌T5和Meena:
https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html
https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html

參考資料
https://venturebeat.com/2021/01/06/ai-models-from-microsoft-and-google-already-surpass-human-performance-on-the-superglue-language-benchmark/
https://www.microsoft.com/en-us/research/blog/microsoft-deberta-surpasses-human-performance-on-the-superglue-benchmark/

關注數據君的臉書:

我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。按讚我的臉書並私訊「10」,送你十週入門數據分析電子書唷!

這是一個專注於數據分析職場的內容部落格,聚焦一批數據分析愛好者,在這裡,我會分享數據分析相關知識點推送、(工具/書籍)等推薦、職場心得、熱點資訊剖析以及資源大盤點,希望同樣熱愛數據的我們一同進步! 臉書會有更多互動喔:https://www.facebook.com/shujvfenxi/