【明報專訊】企業輿情分析工具常見於歐美成熟的資本市場,而目前內地資本市場上只有零星類似工具,其中一個主要原因是語言。數行者科技創辦人及首席執行官龍毅說,中文與英文最大不同在於斷句分詞,例如「能穿多少就穿多少」一句就有完全相反的歧義,故中文文本分析更困難;而中國資本市場與政治掛u,亦增數據分析複雜度。 中文語意易混淆 較英文難分析 數行者科技利用人工智能領域中的「自然語言處理」技術,讓電腦學習理解中文文本,現已有過百萬則語料做訓練,建構出其「智能金融信息服務」。龍毅表示,中文比英文難分析,因為書寫中文句子時,詞語之間不會分隔開,較易出現語意混淆;在中文文本分析開發上,少有共用開源工具或公開數據,亦是發展進程較慢原因。 另外,中國資本市場明顯與政治掛u,新聞資料、社交媒體運作方式跟歐美環境不同。中大會計學院教授張田余表示,黨報與財經類報章的報道對於資本市場有不同程度及方面的影響,「黨報要唱好,故偏正面的消息要打折;而財經類報紙的消息,市場反應會強一點」,而黨報主要功能在宣傳國家政策,如消息與行業有關,整個板塊均受影響。
|
|
|