TCA會員企業專訪 - 藍星球
身為台大91年來,極少數同時由台大技轉、且實際入股的軟體公司,藍星球以能精準剖析中文文件的獨家技術:「透事THOUGHTS雲端服務API」及「蛛思CHOOSE輿情智慧分析平台」來面向中文大數據分析市場,成為輿情分析、民意蒐集、廣告投放的新利器。
藍星球資訊總經理宋浩表示,藍星球的文字探勘技術奠基於執行數位典藏國家型計畫。受惠於過去全台圖書館、博物館、美術館、檔案館等單位專業、珍貴、純淨的文件作為訓練種子資料,輔以藍星球獨家的演算法:時間正規化(格式統一)、空間正規化(地標)技術,將不同單位來源、不同檔案格式、不同填寫方式的資料做正規化一致化處理、進而大幅提升文字的可分析性、可計算性。「這對政府積極推動的開放資料來說,尤其重要,大大增加資料加值應用的可用性。也讓我們的產品『透事THOUGHTS雲端服務API』、『蛛思CHOOSE輿情智慧分析平台』,得以逐步成熟。」
談到文字探勘,大家不免好奇,數據工程與專業的語言學是如何達到跨領域的合作?「在文字探勘的領域中,語言學中所重視的『文法』對資料分析的影響程度並沒有那麼高。」宋浩指出,就技術面而言,NLP(自然語言處理,Natural Language Processing)』會需要更多的語言學背景。目前大多數文字探勘公司的主要技術都是採NLP為技術背景。然而中文的語法斷詞難以精準確實、情緒、正反面主觀意識等等,很難用NLP來處理,這即是藍星球的市場利基。
宋浩認為,NLP的終極目標在實現人與機器的對話,但文字探勘的則在於利用電腦快速閱讀大量文件後,協助使用者找出其中的關鍵重點。因此,「文字探勘」和「NLP」雖然想解決的問題有一部份重疊,但關心的方向並不相同。資訊爆炸的時代,光兩岸四地每天的新聞量就多達一萬多筆,何況還有臉書、PTT、論壇等社群的資料,無法全盤閱讀、蒐集、分析。藍星球利用透過自動化、人工智慧的方法,將非結構化文件中的人事時地物自動找出、建立文件中的結構,快速找出中間的關聯、做出推薦,把使用者真正關心的重點找出來。
例如面向中文大數據分析市場的「透事THOUGHTS雲端服務API」,可快速分析、比對出整篇文章中人事時地物的出現次數、自動生成高度可閱讀的文件摘要、分析文件字裡行間的正負面意見、自動分類、分群文件、並自藍星球的文件資料庫中找出其他相關的文件,協助公司企業、幕僚單位追蹤訊息的散布範疇、快速掌握時事現況,以利快速反應。
而呼應客戶需求「蛛思CHOOSE輿情智慧分析平台」則曾協助中央、地方政府各機關快速掌握輿情,並提供內容的檢核機制,加強政府新聞聯繫工作,以利掌握所屬各機關相關、當紅的議題網路聲量或媒體新聞動態,督促各局處建立迅速、有效之因應處理機制,提升行政效率。
宋浩指出,不論是「透事」或「蛛思」,都可以依據使用者的需求,來分析、呈現所關注的材料,讓使用者可以快速、精準地掌握網路世界脈動,做最即時的反饋和互動。未來,藍星球也將更專注於華文文字探勘技術的精進與應用,逐步站穩全球華文文字探勘的技術領導者。
(發佈時間:2019-11-05)