明報新聞網海外版-明報加東版(多倫多) - Ming Pao Canada Toronto Chinese Newspaper
[ 前往新版面 ]
 
主頁    要聞     加國新聞     社區新聞     中國     國際     港聞     經濟     體育     影視     副刊    工商專業    股市行情  
即時新聞網 ·  醫事網 ·  車網 ·  樂在明廚 ·  置業頻道 ·  FAN club ·  分類網 ·  特刊專區 ·  香港股市行情
   
 
圖片
Datax Limited相信是全香港第一間提供「數據標註」外包服務的公司,將訓練人工智能軟件的前期機械化工作,配對給普通人處理。圖為該公司行政總裁黃偉俊(左二)、科技總裁龍羽騫(右二)、用戶界面設計師譚逸曦(左一)、客戶總監馮兆軒(右一)。(鄧宗弘攝)
放大
 
放大
 

其他新聞
尊子漫畫
【Emily】黃國桐倡區會一開波即邀警解畫
【Emily】被叫再帶隊入中聯辦 卿姐:我撞門?
【Emily】羅致光:當年日日對銅獅講再見
【Emily】新任區議員搞一日遊 睇草泥馬食海鮮
[顯示全部題目]

[昔日明報]

 
港聞
 手機App平台化身AI學習後盾 配對外行人助建數據標註資料庫 省開發時間

【明報專訊】人工智能軟件在科技界炙手可熱,然而要令AI自行運作,開發者往往需要先向它提供大量經過標註(Labelling)的相片、文字、錄音等,涉及大量機械化而又簡單的工作。有初創公司看準這一點,利用手機App作為配對平台,將以上勞力密集和機械化的工作外包給普通人,既釋放開發人員的寶貴時間,亦可降低整體開發成本,普通人也可在空閒時間賺取收入,一舉三得。

明報記者 薛偉傑

Datax Limited行政總裁黃偉俊、用戶界面設計師譚逸曦、科技總裁龍羽騫均表示,人工智能軟件普遍設計成具備「機器學習」自學功能,前提是先要人類向它們提供大量例子「訓練」,機器才能夠從例子中自行觀察和學習。舉例說,若要人工智能準確辨認「什麼是漢堡包」,開發者要先輸入很多不同角度、不同背景的漢堡包相片,亦須包含不完整的漢堡包例如露出餡料或已被吃掉部分的圖像,並從中指出哪件物件是漢堡包,人工智能軟件才能從海量相片中總結經驗,找出共通。

開發者有時會輸入一些似是而非的相片(例如麵包),指明它們並非漢堡包,訓練才算完整。這種從相片中指出漢堡包或非漢堡包的工作,就稱為「數據標註」(Data Labelling)。

「數據標註」是相當機械化、勞力密集的工作,不涉編程知識,若由軟件開發人員兼顧其實很不化算。以往有大學或軟件公司會聘請大學生當兼職,專門負責數據標註工作。即使如此,成本效益也未必是最好。而且,有些數據標註工作可能需要主觀的判斷或認識,或者地區特色(如語言、文化、種族等),盡量每次分配給最適合的人或者多些人負責,會勝過每次都交給固定幾名兼職員工。

Datax Limited負責人讀大學時,曾協助一間跨國時裝公司將數以萬計時裝相片按風格分類,以便訓練該公司的人工智能軟件。當時,他們將相片分類成喇叭褲、窄腳褲、Hip Hop、韓風等,但他們發現若由男士看男裝,女士看女裝,其分類可能會更加準確。又例如,若要訓練一套人工智能軟件準確辨識一句廣東話,就需要收集很多人說同一句廣東話的語音,而不能僅僅倚賴幾名兼職員工。

配對外判機械化工序 普通人掙外快

以上經驗令他們想到,手機App平台可配對普通人和人工智能軟件的開發者,讓後者將訓練軟件的前期大量機械化工作,外判給普通人處理,包括:「圖片標註」、「錄音蒐集」、「對話轉錄分類」(文字轉語音或語音轉文字,並將其內容分類)、「內容情感分類」(文字或語音)等。此舉可釋放開發人員的工時,降低整體開發成本。普通人亦可以利用空閒時間掙取收入,同時又為科技行業作出一分貢獻。

Datax 2017年底成立,年多後設計出Datax Contribute手機App。2019年4月,他們在台灣參加培訓初創公司的加速器計劃時,認識當地一間人工智能軟件公司,接到第一單生意。公司找到100個台灣年輕人協助開發,在大批平面廣告相片中標註出品牌商標,以及表達個人意見,評論廣告是否吸引等。該公司陸續接到台灣、新加坡及香港公司的生意。其中,台灣和新加坡的軟件公司相對成熟和比較有規模,香港客戶則多為初創科技公司。現時,新加坡有一家交通行業的大公司正與該公司商討合作。至於宣傳方式,則主要是參加展覽,以及朋友轉介,或以電郵聯絡目標公司等。

截至去年底,有1300多人安裝Datax Contribute App,其中大部分是「貢獻者」(Contributor),即想接機械化工作的普通人。

料訓練AI工作長遠需求愈來愈多

三人表示,香港企業對人工智能軟件的作用和認識暫時不及台灣和新加坡企業,故本地生意比較少。他們認為長遠來說,涉及訓練人工智能軟件的外判工作需求一定會愈來愈多。他們表示,智能家居系統的語音操控就需先收集大量語音指令(例如開燈、關燈、開電視、大聲一點、細聲一點等),來訓練其軟件。至於用來分析網上社交媒體帖文輿情的人工智能軟件,亦同樣先要由真人提供大量例子,在帖文中標註關鍵句子,並指出其情感或意向等。

 
 
今日相關新聞
手機App平台化身AI學習後盾 配對外行人助建數據標註資料庫 省開發時間
群眾外包現商機 佔收入四成
[顯示全部題目]



引用明報

引用明報(加拿大)內容收費準則:(包括:報章,各類附刊,數碼及任何名下之內容)

文字:每100字(含標點符號) 30元
特別內容如獨家新聞,名家約稿等另按情況收費

圖片:每張50元
獨家,合成圖片,圖樣設計另議。

凡未於收費表列明之項目而屬明報(加拿大)內容者,引用者請先行查詢收費。

舉報剽竊內容獎勵辦法:

凡舉報可能剽竊明報(加拿大)內容者,若有關舉報能成功令明報(加拿大)追討有關費用,在扣除追討費用後,舉報者可獲有關金額的15%作為酬勞。

 
廣告 advertisement
廣告 advertisement
 
 
 
 
主頁 ,  誠聘 , 待聘 ,
房屋出租  ,  招生  , 
服務  ,  買賣  ,  其他