有時候在路上漫步,看到有人在遛一隻可愛的小狗,心裏很想知道小狗是什麼品種,但又怕狗主介紹時聽不懂。這時,如果有一款手機App,只要拿鏡頭對着小狗,電話螢幕馬上出現小狗的品種,連百分比都算出來,你說這厲不厲害。
其實,這款相信會受到愛狗人士歡迎的App已經可以下載,設計和出品的公司SCOPEMEDIA就在溫哥華,現在更已經結合動物領養的概念,成為一款不僅能夠辨識,也能夠領養到心水小狗的程式。
而這僅是SCOPEMEDIA高端圖片辨識的其中一種展現,該公司更會以「圖聯網」的理念,讓以圖搜圖技術更為成熟,並且真正運用到人們日常的生活當中。屆時,我們現在習慣的「網絡搜尋」觀念,可能會有天翻地覆的改變。
SCOPEMEDIA位在溫哥華市中心的一幢高層商業單位裏,佔地面積不大,一群年輕的員工埋頭對着電腦,相當專注地完成自己的工作。而作為創辦人之一的主席暨行政總裁王延青在接受訪問時穿著相當輕鬆,雖是公司老闆,但有着科技人的風範。
圖像識別技術突破 低調創辦公司作科研
王延青是在西門菲沙大學(SFU)修讀博士,畢業後在中國和加拿大投入幾個與IT行業有關的工作,而「卷積神經網絡(CNN)」理論在2012年嶄露頭角,也讓圖像識別技術有了重大突破。
王延青看到機會成立公司,之後就一直專注在圖像識別這個領域至今,並陸續和UBC和SFU有合作關係並獲得來自政府的支持。
「我們公司從2013年創立至今一直相當低調,前幾年基本上就像是個實驗室,一直到不久前才開始思考市場方面的事情,但我們從公司創立到現在的研究目標相當專一,就是圖像視覺辨識的技術。」
讓電腦看懂圖片 「圖聯網」連接世界
「所謂的圖像識別,簡單說就是我們盯着一張照片看,然後看懂裏面有什麼東西,而我們現在要做的,就是讓電腦盯着圖片看。」王延青表示,當一張照片擺在眼前時,人腦可以立即辨識出裏面的內容,不論是人或是山水都不會搞錯,但同樣一張照片交給了電腦,它是看不懂這些是什麼。這是因為過往必須由人去告訴電腦照片裏有什麼,但透過新的技術,可以讓電腦自己看懂照片內容。
王延青指出,照片已經是數量最龐大和最便宜的媒體介面,而且還特別方便,不需要打字或其他技巧,只要手機拿出來一拍即有,但他發現在大多數的社交媒體中,照片的功能僅是圖像表達,因此他要做的就是讓「視覺連結視覺」,也就是找出一張圖片的內容並產生關聯,進而成為「圖聯網」,達到通過圖片就可以做到人、事、物連結。
他說這樣的技術概念並非新穎,但真正做到流暢也不過是這半年的事情,而他也以圖像辨識和連結等技術,做出了一款可以方便愛狗人士領養的智能手機應用程式「DreamDog」。
女兒找狗 啟發DreamDog誕生
「我會想到製作這款軟件,是因為我女兒看到同學有一隻狗,她非常喜歡,所以透過網絡搜尋了快一個月,好不容易才找到。此外一位年長女鄰居的愛犬過世,她很想找到一隻一樣的。但對老人家而言,花上大量時間進行網絡搜索是不太可能的事情,最後她找了一隻與原本愛犬不一樣的狗回家。」
這些原本只是經常發生在生活周圍的小事,但看在王延青的眼裏卻有很大的啟發。「這時我就想,為何不開發一款好用的App,既可以讓我們公司的技術獲得實踐,又可以做公益,協助流浪狗找到新主人,可謂兩全其美。」
有了這個想法後,王延青和他的團隊研發出「DreamDog」這款具體展現SCOPEMEDIA技術的手機App。當把DreamDog打開,並將鏡頭對向一隻狗時,畫面上會跳出這隻狗屬於哪種犬類的百分比,如果是混種狗,手機還會顯示有哪些犬類的比例,且大多相當準確,充分顯示這款App所展現的圖像辨識能力。
連結收容所 提高領養配對率
而通過對照片的高度識別能力,以及與北美動物收容所的連結,DreamDog可以通過一張小狗的照片,準確地找到在哪個收容所有相似度極高的小狗,讓民眾不需要花費大量時間在網絡搜索,而是通過手機,幾分鐘就可以找到心頭好。
王延青說,DreamDog能做到準確辨識,主要是讓電腦進行「深度學習」,尋找同種類狗約500至1000張照片訓練電腦,所以當鏡頭捕捉到一隻狗時,程式可以很快地識別出這隻狗的種類且不會出錯,例如將DreamDog拍攝人或貓時,電腦就會很清楚這不是狗,也就不會出現犬類百分比,且這些辨識功能完全可以離線操作,不需要聯結雲端數據庫,既方便也省流量。他說這項技術未來可以繼續發展,除了辨識其他動物,也可以用於沙發等物件。
圖片連結 一張照片成旅遊達人
除了DreamDog,SCOPEMEDIA發展的另一款手機App「Scope」則是利用另一個改變網絡搜索習慣的軟體。王延青說︰「地球上已經覆蓋滿了相片,而我們要把這些相片利用於各種事情,而Scope是按照地理位置搜索,成為一個綜合性的平台。也就是通過尋找美食或是觀光景點的照片,進而找到想去的地方。」
這是一個與傳統搜尋引擎相反的概念,比如一位旅客到了西班牙,如果想要尋找當地美食餐廳,往往是先通過搜尋引擎打入餐廳名字尋找地址等相關資訊。但Scope則是先找到吸引人的美食照片,看了覺得不錯就直接出現餐廳的地址。
這樣在異國他鄉,語言不通時特別實用,畢竟照片超越語言,通過照片搜尋更為方便。且現在全世界各地的任何地方都有大量的照片,不會出現資料庫不足的情況。這讓照片不僅是拿來看,更成為了可以與全世界連結的工具和通道。或許在不久的將來,這種先找圖再搜尋地點的方式將會成為主流,只要手上有照片,人人都會是旅遊達人。
Stuart Card 人機互動學先驅
王延青的博士指導委員會成員,也是他的老師之一Stuart Card是史丹佛大學著名心理學及電腦科學教授,有現代人機互動學先驅的稱號,也是第一位人機互動實驗室主任,對於現代電腦圖形介面的發展有着深遠的影響,其著作《人機互動心理學》(The Psychology of Human-Computer Interaction)是現代人機互動學領域的聖經,也影響着王延青的理念。
他認為,想要搞好人工智能,就必須先搞懂人的智能。比如說Facebook和Google不僅是有技術,也都有認知心理學家,這是因為人工智能就是模仿人的智能,所以如果連模仿的對象都搞不懂,那又如何模仿,很多公司無法突破這一點,因此造成了模仿「模仿者」的情況。「Google模仿人工智能,但如果其他公司又只懂得模仿Google,那技術上永遠無法追得上。」王延青感慨地說。