林鄭網上逾30花名 系統懂辨認
【明報專訊】以搜尋器優化(SEO)技術為本業的梁元邦,6年前由澳洲回流,為一網上媒體主理社交媒體平台內容,2016年自立門戶,與團隊開發出全港首個「無字庫文本分析系統」,並能辨認人名及歸類,特首林鄭月娥在網上有逾30個花名,該系統可辨識花名所指是林鄭月娥,方便分析輿論。
「無字庫文本分析系統」是梁元邦的公司ASI Analytics & Media的核心技術。梁表示,2016年曾以文本分析系統分析立法會選舉,發現該系統對中文文本並沒足夠敏感度,決定自建人工智能系統認中文字,為現時「無字庫文本分析系統」的雛形,稱為「MIMI」。
上「兩登」學常用語 變學粗口
團隊最初讓「MIMI」從本地兩大討論區連登及高登學認日常用語,卻發現一大問題,「一放它(MIMI)入去就學到粗口,其中一個為高登粗口filter(過濾)『向左走向右走』」,故把它拉出來並重建另一系統。
新的「無字庫文本分析系統」名為「工廠妹系統」,有別於Google蜘蛛式爬取數據,其系統如工廠,派出一隊工人撈取數據。系統已由最初3分鐘進化至現時約100秒,就可從過千個本地新聞網站、媒體專頁等抓取數據,以新聞學中文,每日可學習300至500個生字,令字庫與時並進,成功率由早期的逾80%升至逾95%。
梁說,最初系統辨認人名如「曾俊華」,亦同時認到「俊華的」,因不少文章會寫「曾俊華的」,因有深度學習機制,現不會再現這情G,已可認到名詞、動詞、人名、量詞等。
系統亦懂得歸類,如林鄭月娥在網上有逾30個花名,如「777」、「好打得」、「女版689」等,系統可辨識以其「花名」作稱號的內容,實質提及林鄭,以分析輿情。
(反修例風暴)