ChatSQL是如何實現的？

數據分析那些事

11 min readAug 28, 2024

（以下文章來源於大魚的數據人生）

🔎大模型出來後，讓用戶用自然語言的方式做數據分析就成了BI領域關注的焦點，這其中最關鍵的點在於如何將數據分析的問題轉化成能夠執行的SQL，從而跨越業務理解到數據提取的巨大鴻溝。

今天就來談談ChatSQL的實現思路，下面以“分地區統計4月1日年齡>50歲的客戶的購物金額”需求爲例說明SQL組裝實現的過程👇。

01 需求分析

需求分析是將自然語言轉換為SQL語句的整個流程的第一步。具體包括以下幾個方面：

1、確定支持哪種類型的數據統計問題

（1）聚合查詢：如平均值、總和、計數等。
（2）時間序列分析：如月度銷售額、季度利潤等。
（3）多維度分析：如按地區、年齡段、性別等不同維度進行數據分析。

本案例的“分地區統計購物金額“涉及多維度分析、總和等類型的統計問題

2、確定支持哪些數據源和數據表結構

（1）數據源：數據可以存儲在不同類型的數據庫中，如關係數據庫（MySQL, PostgreSQL）、NoSQL數據庫（MongoDB, Cassandra）或者是分佈式數據倉庫（如Snowflake, Redshift）。
（2）數據表結構：瞭解每個數據表的結構，包括表名、字段名、字段類型等。這樣才能確保自然語言的需求能準確地映射到具體的數據庫字段。

本案例涉及客戶信息表（CustomerInfo）、購物記錄表（ShoppingRecords），如下所示。

為了簡化後續操作，這裡假設大模型具備連續問答的能力，同時兩張表內容已經成為本次問答的上下文。

3、瞭解目標用戶和使用場景

（1）目標用戶：瞭解將使用這個系統的主要用戶群體，他們可能是管理者、數據分析師、業務人員或者是沒有數據庫經驗的普通用戶。
（2）使用場景：瞭解在哪些具體場景下，用戶最有可能使用這個系統。是為了報告生成、實時數據監控，還是為了業務決策支持。

起步的時候，ChatSQL只能實現非常簡單的取數邏輯，其不是為IT人員服務的，他們也不需要，服務的對象更可能是不懂SQL的業務人員或者老闆。

業務人員希望自己能快速的獲得某個數據。比如取上月arpu大於50的用戶清單進行營銷，管理人員希望能快速靈活的獲得某個維度的指標數據，但讓他自己找或找別人要，這個指標沒個半天下不來。

通過這一階段的需求分析，我們將能更清晰地瞭解系統需要解決的具體問題，以及如何去解決這些問題。這為後續的設計和實現提供了明確的方向。

02 大模型識別出基礎元素

SQL做統計要明確四個要素：維度、指標、條件及時間，我們要從需求描述中把四個要素準確的提取出來：

（1）識別維度：找出句子中表示維度（如地區、時間等）的詞彙。
（2）識別指標：找出句子中表示指標（如購物金額、次數等）的詞彙。
（3）識別條件：找出句子中表示篩選條件的詞彙。
（4）識別時間：如果有，找出句子中表示時間範圍的詞彙。

這就需要靠大模型的語義理解能力了，這裡以ChatGPT4為例說明，可以這麼問大模型:

❓問題：

“假設你是自然語言處理專家和統計學家，並是XX行業的數據分析師，請理解以下業務需求，將需求描述進行統計元素拆解，並採用{【指標】：比如”在網用戶數“；【時間】：比如”2020年5月“；【維度】：比如”地市“；【條件】：比如”收入大於100元“}的格式輸出，需求描述：分地區統計4月1日年齡>50歲的客戶的購物金額”

ChatGPT4：
【指標】：購物金額
【時間】：4月1日
【維度】：地區
【條件】：年齡>50歲

可以看到，chatgpt準確的提取出了四個關鍵要素，這是非常關鍵的一步。

03 字段映射

【指標】、【維度】及【條件】通過向量檢索查詢最相似的列，然後提取表名和列名，也可以直接問大模型要答案：

❓問題：

“請將購物金額、地區、年齡>50歲、時間與CustomerInfo、ShoppingRecords表對應的字段做匹配，輸出格式參考：購物金額->ShoppingRecords.shopping_amount”

ChatGPT4：
購物金額->ShoppingRecords.shopping_amount；
地區->CustomerInfo.region；
年齡>50歲->CustomerInfo.age；
時間->ShoppingRecords.shopping_date

04 SQL組裝

大模型支持連續對話，可以直接讓chatgpt基於前面的語義分析給出組裝SQL：

❓問題：

“請基於字段匹配關係，對“分地區統計4月1日年齡>50歲的客戶的購物金額“給出拼裝的統計SQL”

ChatGPT4：

事實上，ChatGPT4已經足夠聰明到能夠推理出你統計的意圖，並且給出了正確的組裝SQL。

05 大模型的挑戰

以上只是基於ChatGPT 4的測試結果，還是比較理想化的，但要實現一個真正實用的ChatSQL，要解決的問題其實很多。

1、大模型的能力問題

現在大多數模型跟chatgpt4有巨大的差距，為了得到你想要的結果，往往需要給出更多的提示詞和使用更多的輔助工具。下面我們基於chatgpt3.5再走一遍流程，看看會發生什麼問題，探討下應該怎麼解決：

（1）大模型識別出基礎元素

❓問題：

“假設你是自然語言處理專家和統計學家，並是XX行業的數據分析師，請理解以下業務需求，將需求描述進行統計元素拆解，並採用

{【指標】：比如”在網用戶數“；【時間】：比如”2020年5月“；【維度】：比如”地市“；【條件】：比如”收入大於100元“}的格式輸出

需求描述：分地區統計4月1日年齡>50歲的客戶的購物金額”

ChatGPT3.5：
1、指標：購物金額
2、時間：4月1日
3、維度：地區
4、條件：年齡大於50歲的客戶

可以看到，ChatGPT3在條件中把“客戶”帶進來了，這會干擾後續條件字段的映射。

（2）字段映射

❓問題：

“請將購物金額、地區、年齡大於50歲的客戶、時間與CustomerInfo、ShoppingRecords表對應的字段做匹配，輸出格式參考：購物金額->ShoppingRecords.shopping_amount“

ChatGPT3.5：
購物金額->ShoppingRecords.shopping_amount
地區->CustomerInfo.region
年齡大於50歲的客戶->CustomerInfo.age > 50
時間->ShoppingRecords.shopping_date

果然，”年齡大於50歲的客戶“無法很好的與某個字段匹配，這裡可以有兩種解決方式：

第一種是調整提示詞：

問題：
“請將購物金額、地區、客戶年齡大於50歲、時間與CustomerInfo、ShoppingRecords表對應的字段做匹配，輸出格式參考：購物金額->ShoppingRecords.shopping_amount“，如果無法直接匹配到字段，請選擇含義最近的字段進行匹配“
ChatGPT3.5:
購物金額 -> ShoppingRecords.shopping_amount
地區 -> CustomerInfo.region
客戶年齡大於50歲 -> CustomerInfo.age（儘管無法直接匹配，但代表客戶年齡信息）
時間 -> ShoppingRecords.shopping_date

這時它終於匹配上了正確的字段，但需要不停的優化提示詞才能做到通用性。

第二種就是採取分詞、詞性標註、實體識別等方式，先把”客戶年齡“這個實體名稱單獨識別出來再去匹配字段，這是在特定領域解決大模型能力不足的特定方法，但會導致ChatSQL的複雜度大大增加。

（3）SQL組裝

❓問題：

”請基於字段匹配關係，對“分地區統計4月1日年齡>50歲的客戶的購物金額“給出拼裝的統計SQL“

chatgpt3.5: