在2024年10月1日,OpenAI於舊金山舉辦的開發者日(DevDay)上,推出了多項重大的API更新,特別是在語音助理技術方面,展示了該公司在人工智慧(AI)領域的進步與創新。
此次活動的亮點之一是全新的Realtime API,該API允許開發者透過六種預設語音進行語音到語音的對話,並簡化了語音助理的創建過程。過去,開發者需要使用多個模型來完成語音識別、文本處理和文本轉語音的功能,而現在只需通過一次API調用便可完成整個過程,顯示出OpenAI在技術整合上的重大突破。
此外,OpenAI還宣布了兩個有助於平衡AI應用性能與成本的新功能:“模型蒸餾”和“提示快取”。模型蒸餾讓開發者能夠透過高級模型的輸出來調整較小的模型(如GPT-4o mini),使得開發者可以在保持準確性的同時降低運行成本。而提示快取則能通過記憶常用的提示來加速推理過程,並提供50%的輸入令牌折扣,展示出OpenAI在推動技術可及性方面的努力。
隨著新功能的推出,開發者將能夠更輕鬆地整合智能語音助手進其應用中,這不僅能改善用戶體驗,還將擴大語音技術在各領域的應用潛力。OpenAI預計在未來幾週內,將向其聊天補全API添加音頻輸入和輸出能力,這將進一步提升開發者的創作自由度。
此外,OpenAI此次活動還強調了影像微調(vision fine-tuning)功能,開發者現可透過自訂的圖像和文本來改進GPT-4o的視覺識別能力,這在自動駕駛車輛和醫療影像分析等領域均具有重大應用潛力。
儘管今年的開發者日缺乏CEO山姆·阿爾特曼的獨白發言,但他仍然出現在現場,並預計將進行閉幕的“壁爐聊天”。他在社交媒體上的留言中提到,自上屆開發者日以來,OpenAI經歷了劇變,並表示:「從上一次開發者日到這一次:每令牌成本下降98%、系統中令牌量增加50倍」、「模型智能的進步」、「以及一點小戲劇。」顯示出該公司在實現更高效AI方面的雄心。
總的來說,OpenAI的此次開發者日不僅是在技術創新上取得了重大進展,更顯示出該公司對於推動開發者生態系統賦能的堅定承諾。語音助理的創建變得簡單,將會大幅促進智能應用的普及,並可能改變人們與技術交互的方式。
圖片來源: OpenAI 2024 開發者日
這一切的發展毫無疑問將對未來的科技格局和人類生活產生深遠的影響,從而使每個人都感受到智能化的變革。未來,通過這些新的API和技術,語音交互將變得更加自然且無縫,進一步推動人工智慧的應用進程。