群英薈萃:盤點2023的大語言模型

數據分析那些事
9 min readDec 29, 2023

--

2023年可謂大語言模型元年,許多大語言模型嶄露頭角,以ChatGPT 為首的生成式對話模型一枝獨秀,在人工智慧領域獨領風騷,引領著自然語言處理技術的不斷成熟。

來源:數據派THU

在過去的一年裡,伴隨著ChatGPT快速發展,生成式人工智慧領域湧現出諸多大語言模型,它們八仙過海,各顯神通,在國內外都取得了顯著的成就,各個國家和地區的企業、機構以及學術界都在積極投入資源和努力,推動大模型技術的發展。在即將過去的2023年歲末年終,讓我們一起來盤點今年流行的大語言模型。

2023的大語言模型列表

國外大語言模型彙總

在國外,OpenAI 推出的基於 GPT-4 的大型語言模型 ChatGPT,以優異的表現,吸引了廣大科研人員和開發者的關注和參與。除此之外,Google、Microsoft、Meta和NVIDIA背後的大型語言模型迅速成為人工智慧領域的熱門話題,形成了百花齊放百家爭鳴的良好格局。

1. Open AI

  • GPT-4

GPT-4是OpenAI開發的一款更大、更智慧的語言模型。它在模型規模、訓練資料和計算資源等方面都進行了大幅度提升。GPT-4的引數量高達1.6萬億,比GPT-3的引數量增加了40倍,同時採用了更先進的訓練方法和硬體設施。GPT-4在自然語言生成和對話任務中表現出色,可以流利地表達複雜的概念和情感,並且具備更高的實用性和可靠性。GPT-4它能夠理解和生成自然語言文字。GPT-4在各種應用場景中都表現出色,如客服、教育、娛樂等。GPT-4擁有強大的語言理解能力,能夠推理並生成文字,其表現幾乎與人類一樣。

  • DALL·E 2

DALL·E 2是OpenAI開發的大型影象生成模型,它可以根據文字描述自動生成影象。DALL·E 2在影象生成方面表現出色,可以生成具有極高解析度的影象,並且能夠準確地表達出文字描述的細節和情感。DALL·E 2不僅可以用於娛樂、創意設計等領域,還可以應用於影象修復、風格遷移等任務。

2. Meta

  • Llama

LLaMA是擁有7B到65B引數的基礎語言模型。在數萬億令牌上進行了訓練,並展示了使用公開可用資料集訓練最先進的模型是可能的,而不必依賴於專有和不可訪問的資料集。其中,LLaMA-13B在大多數基準測試中優於GPT-3(175B),而LLaMA-65B與最佳模型,Chinchilla-70B和PaLM-540B,具有競爭力。

  • BlenderBot-3

BlenderBot 3是一個可以與人互動並接收反饋以提高對話能力的對話代理。BlenderBot 3是基於Meta AI公開提供的OPT-175B語言模型構建的,該模型的規模大約是其前身BlenderBot 2的58倍。該模型融合了人格、共情和知識等對話技能,並透過利用長期記憶和搜尋網際網路來進行有意義的對話。

  • OPT-IML

OPT-IML是基於Meta的OPT模型的預訓練語言模型,擁有1750億個引數。OPT-IML經過微調,以在自然語言任務(如問答、文字摘要和翻譯)中獲得更好的效能,使用了約2000個自然語言任務進行訓練。它在訓練過程中更高效,並且比OpenAI的GPT-3具有更低的CO₂排放量。

3. Google

  • LaMDA

LaMDA是一系列專門用於對話的基於Transformer的模型。這些模型擁有多達1370億個引數,並使用1.56萬億個公開對話資料進行訓練。LaMDA可以在各種話題上進行自由流暢的對話。與傳統的聊天機器人不同,它不受預定義路徑的限制,可以根據對話的方向進行自適應調整。

  • PaLM

PaLM是一個具有5400億個引數的語言模型,能夠處理各種任務,包括複雜的學習和推理。它在語言和推理測試中可以勝過最先進的語言模型和人類。PaLM系統採用了少樣本學習的方法,可以從少量的資料中泛化,近似模擬人類學習和應用知識來解決新問題的方式。

4. Microsoft

  • MT-DNN (Multi-Task Deep Neural Network)

MT-DNN是由Microsoft開發的多工深度神經網路模型。它可以將多個自然語言處理任務整合到一個模型中,並利用共享引數和任務之間的相關性實現更好的效能。MT-DNN在文字分類、命名實體識別、情感分析等任務中都取得了顯著成果,並且具有更高的計算效率和更強的泛化能力。

5. NVIDIA

  • Megatron-Turing NLG

Megatron-Turing自然語言生成(MT-NLG)模型是一個基於Transformer的語言模型,擁有5300億個引數,使其成為同類模型中最大且最強大的模型。它在零、一和少樣本設定中超越了之前的最先進模型,並在完成預測、常識推理、閱讀理解、自然語言推理和詞義消歧等自然語言任務中展現了無與倫比的準確性。

國內大語言模型彙總

在國內,截至2023年11月30日,多家大模型企業和機構正式宣佈其服務已經上線,並向全社會開放。目前,百度、金山、智譜、百川、位元組、商湯、中科院(紫東太初)等8個企業和機構的大模型名列第一批備案名單,它們可以正式上線並向公眾提供服務。

1. 百度

  • 文心一言

文心一言是由百度研發的知識增強大語言模型,它能夠與人對話互動,回答問題,協助創作,高效便捷地幫助人們獲取資訊、知識和靈感。文心一言擁有廣泛的知識儲備和語言理解能力,能夠輕鬆應對各種自然語言任務。

  • Ernie 3.0 Titan

由百度和鵬程實驗室聯合釋出,它有 260B 個引數,擅長自然語言理解和生成。它在海量非結構化資料上進行了訓練,並在機器閱讀理解、文字分類和語義相似性等 60 多項 NLP 任務中取得了一流的成績。此外,泰坦還在 30 項少拍和零拍基準測試中表現出色,這表明它有能力利用少量標記資料在各種下游任務中進行泛化。

  • ERNIE Bot

ERNIE Bot是百度研發的知識增強大語言模型,它能夠與人進行對話互動,回答問題,協助創作,高效便捷地幫助人們獲取資訊、知識和靈感。ERNIE Bot擁有強大的語言理解能力,能夠處理複雜的語義關係,並具備跨模態的知識推理能力。於 3 月份完成 “Ernie Bot “專案的內部測試。Ernie Bot 是一種人工智慧語言模型,類似於 OpenAI 的 ChatGPT,能夠進行語言理解、語言生成和文字到影象的生成。這項技術是全球開發生成式人工智慧競賽的一部分。

2. WPS AI

WPS AI是金山辦公與合作伙伴共同開發的AI工作助理,它能夠理解自然語言並生成對應的回覆,回覆思路清晰,邏輯嚴密,推理精確。WPS AI在處理文件、資料分析和智慧回覆等方面表現出色,為人們提供了更加高效便捷的辦公體驗。

3. 智譜AI

  • ChatGLM-6B

ChatGLM-6B 是一個開源的、支援中英雙語問答的對話語言模型,並針對中文進行了最佳化。該模型基於 General Language Model (GLM) 架構,具有 62 億引數。結合模型量化技術,使用者可以在消費級的顯示卡上進行本地部署(INT4 量化級別下最低只需 6GB 視訊記憶體)。ChatGLM-6B 使用了和 ChatGLM 相同的技術,針對中文問答和對話進行了最佳化。經過約 1T 識別符號的中英雙語訓練,輔以監督微調、反饋自助、人類反饋強化學習等技術的加持,62 億引數的ChatGLM-6B 雖然規模不及千億模型,但大大降低了推理成本,提升了效率,並且已經能生成相當符合人類偏好的回答。

  • GLM-130B

GLM-130B 是一個開源開放的雙語(中文和英文)雙向稠密模型,擁有 1300 億引數,模型架構採用通用語言模型(GLM)。它旨在支援在一臺 A100(40G * 8)或 V100(32G * 8)伺服器上對千億規模引數的模型進行推理。在 INT4 量化方案下,GLM-130B 可以幾乎不損失模型效能的情況下在 RTX 3090(24G * 4)或 GTX 1080 Ti(11G * 8)伺服器上進行高效推理。

4. 阿里

  • 通義千問

2023年4月,阿里釋出了「通義千問」,一個超大規模的語言模型,具備多輪對話、文案創作、邏輯推理、多模態理解、多語言支援等功能。而就在前幾天,阿里再次推出以通義千問70億引數模型Qwen-7B為基座語言模型:Qwen-VL,支援圖文輸入,具備多模態資訊理解能力。除了具備基本的圖文識別、描述、問答及對話能力之外,還新增了視覺定位、影象中文字理解等能力。

此外,國內模型還有百川智慧模型、抖音的雲雀大模型、中科院 “紫東太初”模型、上海人工智慧實驗室的書生大模型、MiniMax 的 ABAB 大模型等。

以上是2023年叱吒風雲的九大語言模型,它們在各個領域都展現出了卓越的效能,目睹了大模型的爆炸式增長。隨著技術的不斷進步,期待它們在自然語言處理、影象識別、語音識別等領域的效能不斷提升,甚至超越人類的水平。

※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※

我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。各位也可以關注我的Facebook,按讚我的臉書並私訊「10」,送你十週入門數據分析電子書唷!期待你與我互動起來~

文章推薦

常用的幾個經典Python模組

都2023年了,為什麼資料孤島問題還沒解決!

MySQL必須掌握4種語言!

商業分析應該怎麼做?一篇文章把思維和工具說清楚了!

跟資料打交道的人都得會的這8種資料模型,滿足工作中95%的需求

回顧十週入門數據分析系列文:

關注數據君的臉書:

我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。按贊我的臉書,會有豐富資料包贈送唷!

--

--

數據分析那些事
數據分析那些事

Written by 數據分析那些事

這是一個專注於數據分析職場的內容部落格,聚焦一批數據分析愛好者,在這裡,我會分享數據分析相關知識點推送、(工具/書籍)等推薦、職場心得、熱點資訊剖析以及資源大盤點,希望同樣熱愛數據的我們一同進步! 臉書會有更多互動喔:https://www.facebook.com/shujvfenxi/

No responses yet