ChatGPT升級可語音對話辨影像

[2023.09.27] 發表
據OpenAI網站公布的例子示意圖,ChatGPT新增「看、聽、說」功能,例如使用者拍下一張單車照片,詢問如何降低單車座椅的高度,ChatGPT就會給予詳細的調整步驟。(網上圖片)

發明人工智能(AI)聊天機械人ChatGPT的美國初創企業OpenAI周一(25日)宣布推出備受期待的ChatGPT更新版,一直以來僅限於輸入文字提示的ChatGPT新版本變得「能看、聽、說」,使用者可以與ChatGPT直接對話溝通,亦能夠向它輸入影像。ChatGPT跳出純文字框架,被視為該程式一大突破。

OpenAI在官網發表文章稱,新版ChatGPT新增用戶與AI語音對話功能,它甚至能「展示」出雙方談論的內容,「語音和影像為大家提供更多在生活中使用ChatGPT的方式」。文中提到的例子包括,「在旅行時拍下一張名勝照片,然後即時討論當中有趣的地方」,又或拍下雪櫃內部的照片就可取得食譜建議,或是拍下孩子的數學作業相片就能幫忙找出答案等。在輸入相片時,用戶可以輸入語音或文字提出問題,甚至可以利用程式的繪畫功能協助點出想查詢的重點。OpenAI稱,ChatGPT在辨認人類樣貌上未必準確,加上私隱原因,因此新版ChatGPT被限制了分析人類外貌和直接評頭品足的能力,亦無法說出某相片內人物的資料。

憂騙徒生成語音 暫限付費者用

新功能暫只供付費用戶使用。OpenAI表示語音和影像功能將在未來兩周向ChatGPT Plus和Enterprise用戶推出,「之後很快」進一步開放。OpenAI解釋暫時不全面推出的原因,指新功能讓用戶於幾秒內生成出逼真的語音,有可能帶來風險,包括有不法之徒用作詐騙。

自從ChatGPT去年底推出以來,多家AI公司展開AI聊天機械人競賽。Google的同類產品Gemini預計在短期內推出,據報已有數家公司進行測試。網購巨擘亞馬遜周一亦宣布,將投資40億美元(約312億港元)到AI初創企業Anthropic,為公司的生成式AI業務提供支援。

(法新社/紐約時報/衛報/The Verge)

更多國際要聞

明報網站 · 版權所有 · 不得轉載
Copyright © 2023 mingpaocanada.com All rights reserved.
Ming Pao Daily News A wholly owned subsidiary of Ming Pao Enterprise Corporation Ltd.
Toronto Chinese Newspaper

Chief Executive Officer: Ka Ming Lui | Executive Chief Editor: Richard Kwok Kai Ng
1355 Huntingwood Drive, Scarborough, Ontario, Canada M1S 3J1 | Tel.: (416) 321-0088 | Fax: (416) 321-5377 | Advertising Hotline Tel: (416) 673-8250