ChatGPT卡關！使用量下降、研究證實GPT-4變笨中

商傳媒｜記者許方達／綜合報導

OpenAI靠推出聊天機器人ChatGPT爆紅全球；不過，近來公司面臨兩大難題，分別是ChatGPT流量直線下滑，另一項則是有研究證實「GPT-4明顯變笨」。

根據數據公司SimilarWeb統計，ChatGPT在5至6月份的全球流量下降9.7%，獨立訪客減少5.7%，使用者在網站上停留的時間，更在5月份下降了8.5%。此外，ChatGPT的流失率（即停止使用服務的使用者比例）飆升到20%左右。

圖片來源：SimilarWeb

更棘手的是GPT-4變笨的疑慮，近日一份以「How Is ChatGPT′s Behavior Changing over Time？」為題的論文依「數學問題、敏感問題、寫程式能力和視覺推理能力」，分別對GPT-4及GPT-3.5進行測試。

其中在「數學能力」部分，研究人員給予兩大模型同樣500道「判斷給定整數是否為質數」的問題，測試結果顯示：GPT-4在3月時共答對488道題目，到了6月只答對12題，成功率直接從97.6%「劣化」至2.4%。對照之下，GPT-3.5在3月時的答題正確率僅7.4%，6月竟大幅提升至86.8%。

圖片來源：翻攝自Santiago推特

當研究人員透過經典的「Let’s think step by step」辦法，來引導GPT-4解出正確答案時，6月的GPT-4已不再嘗試給出中間步驟，而是直接回答「yes」或「no」。

不止如此，當研究人員要求ChatGPT寫code或進行視覺推理測試時，GPT-4的程式撰寫能力也明顯下降。對於50道簡單等級的LeetCode題，在3月時，GPT-4給的答案有高達52%可不經更改直接執行；到了6月份，可成功執行的答案僅剩10%。

圖片來源：翻攝自arXiv

這份論文的作者包括：史丹佛華裔教授James Zou、學生Lingjiao Chen，還有柏克萊計算機科學教授Matei Zaharia以及AI數據公司Databricks的CTO。

由於GPT-4沒有開源，James Zuo表示，「我們也不知道模型本身、神經架構或是訓練數據哪個環節，產生了怎麼樣的變化。當我們調整大型語言模型，以提高其在某些任務上的性能時，實際上可能會產生很多意想不到的後果，這實際上可能會損害該模型在其他任務上的性能」。

論文最後以longitudinal drifts「縱向飄移」形容模型能力隨著更新和時間變化造成的「不穩定性」，儘管還是沒有找出ChatGPT變笨的確切原因，但已在學術界引起廣泛討論。