結合DeepSeek 港產AI冀年內公眾用 支援粵語 可撰法律文書作曲製影片
【明報專訊】由政府資助的InnoHK香港生成式人工智能研發中心(HKGAI)昨日公布研發出HKGAI V1大模型。該系統基於大型語言模型DeepSeek作「全參數微調」並持續訓練而成,屬全國首例。V1大模型運用本地知識庫訓練、支援兩文三語,受其支援的文書輔助應用程式「港文通」,已於70多個政府部門試用。科大首席副校長、HKGAI主任郭毅可表示,首要是做到政府內部廣泛且穩定應用,在有足夠承載力前提下,目標今年內開放予公眾使用。
5大學研發 70部門正試用「港文通」
HKGAI於2023年10月成立,昨日公布由本港研發的HKGAI V1大模型,大模型衍生多種用途,包括聊天機械人、文章撰寫、錄音轉換文字、法律文書撰寫、作曲、影片生成等(見表)。發布會昨日示範以王菲新歌《世界贈予我的》歌詞,重新作曲;並以已故全國政協前副主席霍英東照片及聲線,生成影像「自述」生平(見另稿)。
創新科技及工業局長孫東稱,ChatGPT前年初發布引發全球關注,卻不對港開放,政府遂組織本地專家教授、科研團隊召開多次座談會,探討在港開闢生成式人工智能(Generative AI)發展,最終成立HKGAI,由科大聯同另外4間大學參與。
孫東稱研發中心不到一年,先開發出首個生成式AI文書輔助應用程式「港文通」,去年中起在政府部門試用及訓練;今年初DeepSeek推出,研發團隊迅速將DeepSeek的底座模型架構與HKGAI模型的數據處理功能結合,「充分體現『一國兩制』的價值觀」,推出HKGAI V1大模型。
政府供訓練資料 稱資訊經交叉驗證
AI模型需大量資料及數據訓練,郭毅可稱,訓練資料包括由政府提供的公開資料庫、圖書館數據、本土文化資料、專業術語、特定領域的專業知識。模型突破之一是涵蓋圖片資料,郭形容「一張圖頂萬句話」,圖片資訊量高,若梳理好圖片之間關連,可令模型對表格、圖像的推理水平更好。郭透露面對算力不足,有賴政府提供數碼港超算中心的運算力。
確保資訊準確是生成式AI的挑戰。郭毅可稱,模型建基於統計學,一定會有錯誤,為確保準確率高,該系統除了運用可靠知識庫及擷取外來網頁資訊,亦有交叉驗證(cross validation)校對,加強推理能力,例如參考首兩個網頁後,會比對第三個網頁資訊印證。
郭毅可:數據大量獲授權應用
AI發展亦衍生版權問題,政府擬修訂《版權條例》配合。郭毅可稱,各國就AI版權問題有不同處理方向,他認為重要的是保障數據合法使用,現時HKGAI所用數據,大量都獲授權應用。郭亦說,訓練模型用的數據屬「非常有爭議的問題」,相信香港法律專家正不斷探討,期望達到「既保障不侵權,又保證不妨礙機器學習」的規管框架。
■明報報料熱線﹕inews@mingpao.com / 9181 4676