在近日一場直播訪談中,特斯拉與SpaceX的創始人埃隆·馬斯克(Elon Musk)明言,當前人工智慧(AI)訓練模型所需的實體數據幾乎已經被耗盡。馬斯克表示:
“我們的確已經基本耗盡了所有的人類知識總和,用以AI訓練。”
這一觀點與許多AI專家一致,顯示出目前AI系統面臨的數據短缺困境。馬斯克指出,這一情況從去年開始已成為現實,未來的AI模型發展將需要依賴合成數據,即由AI模型自身生成的數據。
*圖片來源:TechCrunch*
此次討論的背景是,許多大型科技公司,包括微軟、Meta、OpenAI和Anthropic,都已經開始使用合成數據來訓練其主要AI模型。根據Gartner的預測,到2024年,約60%的AI和分析項目使用的數據將是合成生成的。這些合成數據不僅有助於填補實體數據的缺口,還能在開發過程中節省成本。例如,AI初創公司Writer的Palmyra X 004模型幾乎完全以合成數據開發,總開發成本僅為70萬美元,而搭建一個類似的OpenAI模型預計需花費460萬美元。
然而,使用合成數據也存在其劣勢。研究表明,合成數據寄生於訓練模型的數據質量,若原數據存在偏見,那麼模型的結果也將反映出類似的問題。這可能導致模型產出變得不夠“創造性”甚至偏向性,更加危險的是,合成數據長期使用可能會使得AI系統在功能上出現重大漏洞或崩潰。
馬斯克的這一觀點與前OpenAI首席科學家伊利亞·蘇茲科夫(Ilya Sutskever)在NeurIPS機器學習會議上的發言相吻合。蘇茲科夫曾表示,AI產業達到了所謂的“數據頂峰”,這意味著業界應該尋求新的數據來源和模型開發方向,特別是在當前數據短缺的情況下。
另外,誠如馬斯克所述,未來的AI發展必須依賴合成數據的結合,這一變化也駐足於技術前沿。微軟的Phi-4模型和谷歌的Gemma模型均開始大量使用合成數據進行訓練,而Anthropic也利用合成數據提升Claude 3.5 Sonnet的性能。這些舉措反映出行業向合成數據的移動以及其在未來AI模型發展中的重要性。
不過,馬斯克和其他專家之間的共識表明,合成數據將是未來AI創新的一條出路,但如何平衡其優勢與劣勢,則仍是未來發展中的重要課題。AI模型的發展應在廣泛的應用與創新的基礎上進行,而非僅僅依賴於合成數據,否則將可能重蹈覆轍,導致質量下降和偏見持續存在。
隨著人工智慧技術的迅速發展,我們或許正在見證一場數據與科技的革命,資源的可用性將成為未來AI生態系統的重要考量。數據的收集、存儲、使用方式都可能因此產生根本性的變化,而馬斯克所強調的合成數據,正是這一變革中的關鍵部分。