GPT-4o標榜更自然人機互動
最快0.232秒反應 OpenAI免費提供
AI模型之爭愈趨激烈之際,盛傳將與蘋果合作為iPhone引入AI功能的OpenAI,為AI模型GPT-4 推出迭代版本「GPT-4o」,標榜「更人性化」、「更自然的人機互動」。新模型將透過ChatGPT免費提供,且不會加入廣告。OpenAI行政總裁Sam Altman表示,已創造出「全球最好」的AI模型,並形容它就像荷李活電影中的AI伙伴。
「GPT-4o」中的「o」指「全方位」(omni),它可接受用戶向其輸入文字、音訊和影像的任意組合,再生成文本、音訊和影像的任何組合,向用戶輸出。由於「GPT-4o」整合視聽資訊的能力顯著提升,它能透過語音與用戶實時互動,解決普遍AI模型的對應遲緩問題。據OpenAI透露,「GPT-4o」對用戶的語音輸入作出反應,最快只需0.232秒,而平均需時0.32秒就能作出回應,媲美人類對話速度。有別於現時市面的語音助理,「GPT-4o」的升級語音模式,可接受用戶隨時打斷它的發言,然後按用戶的新提示作出回應。在OpenAI周一的直播示範,OpenAI的工程師首先要求「GPT-4o」以情感編造睡前故事,然後突然要求它切換至機械人的聲線,最後要求它以歌聲結束故事。OpenAI表示,新模型還懂鑑貌辨色,可透過用戶的語調變化,又或透過手機鏡頭觀察用戶的表情,從而判斷用戶的情緒,並作出切合情境的回應。
Altman表示,此語音模式靈感來自史嘉麗祖安遜(Scarlett Johansson)在2013年上映的美國科幻愛情片《觸不到的她》(Her)所飾演的AI語音助手。該片講述男主角與AI語音助理的感情,是Altman最喜愛的電影。不過,OpenAI技術總監Mira Murati稱,該模型受人類對話模式啟發更大。
根據傳統基準測試,「GPT-4o」的英語文字、理解力及程式編碼表現,與GPT-4 Turbo的效果相若。在非英語及多語言環境、音訊和視覺處理方面,「GPT-4o」更勝一籌。在直播示範中,「GPT-4o」為兩個對話者提供語言傳譯、指導用戶完成寫在紙上的基本代數題目,並分析代碼,一切任務基本都能實時完成。
「GPT-4o」將逐步向用戶免費提供先進的數據分析工具、圖像分析及記憶工具,助ChatGPT記得對話內容。用戶還可免費使用自訂的聊天機械人,並進入ChatGPT網上商店,內有用戶構建的模型和工具。至於付費用戶,將續獲免費用戶的5倍查詢量。OpenAI發布新模型之際,Google亦舉行開發者大會,市場期待它發布AI產品。蘋果上周亦發布了採用最新M4晶片的iPad Pro,以提高iPadOS作業系統的AI相關任務功能。此外,由亞馬遜注資的AI初創企業Anthropic亦公布,歐洲的個人及企業周二起可透過網頁及iOS軟件使用其Claude聊天機械人。OpenAI也致力開發全新的GPT-5模型,預計將實現大躍進。(綜合報道)