TCA會員企業專訪

TCA會員企業專訪 - 藍星球

身為台大91年來，極少數同時由台大技轉、且實際入股的軟體公司，藍星球以能精準剖析中文文件的獨家技術：「透事THOUGHTS雲端服務API」及「蛛思CHOOSE輿情智慧分析平台」來面向中文大數據分析市場，成為輿情分析、民意蒐集、廣告投放的新利器。

藍星球資訊總經理宋浩表示，藍星球的文字探勘技術奠基於執行數位典藏國家型計畫。受惠於過去全台圖書館、博物館、美術館、檔案館等單位專業、珍貴、純淨的文件作為訓練種子資料，輔以藍星球獨家的演算法：時間正規化(格式統一)、空間正規化(地標)技術，將不同單位來源、不同檔案格式、不同填寫方式的資料做正規化一致化處理、進而大幅提升文字的可分析性、可計算性。「這對政府積極推動的開放資料來說，尤其重要，大大增加資料加值應用的可用性。也讓我們的產品『透事THOUGHTS雲端服務API』、『蛛思CHOOSE輿情智慧分析平台』，得以逐步成熟。」

談到文字探勘，大家不免好奇，數據工程與專業的語言學是如何達到跨領域的合作?「在文字探勘的領域中，語言學中所重視的『文法』對資料分析的影響程度並沒有那麼高。」宋浩指出，就技術面而言，NLP(自然語言處理，Natural Language Processing)』會需要更多的語言學背景。目前大多數文字探勘公司的主要技術都是採NLP為技術背景。然而中文的語法斷詞難以精準確實、情緒、正反面主觀意識等等，很難用NLP來處理，這即是藍星球的市場利基。

宋浩認為，NLP的終極目標在實現人與機器的對話，但文字探勘的則在於利用電腦快速閱讀大量文件後，協助使用者找出其中的關鍵重點。因此，「文字探勘」和「NLP」雖然想解決的問題有一部份重疊，但關心的方向並不相同。資訊爆炸的時代，光兩岸四地每天的新聞量就多達一萬多筆，何況還有臉書、PTT、論壇等社群的資料，無法全盤閱讀、蒐集、分析。藍星球利用透過自動化、人工智慧的方法，將非結構化文件中的人事時地物自動找出、建立文件中的結構，快速找出中間的關聯、做出推薦，把使用者真正關心的重點找出來。

例如面向中文大數據分析市場的「透事THOUGHTS雲端服務API」，可快速分析、比對出整篇文章中人事時地物的出現次數、自動生成高度可閱讀的文件摘要、分析文件字裡行間的正負面意見、自動分類、分群文件、並自藍星球的文件資料庫中找出其他相關的文件，協助公司企業、幕僚單位追蹤訊息的散布範疇、快速掌握時事現況，以利快速反應。

而呼應客戶需求「蛛思CHOOSE輿情智慧分析平台」則曾協助中央、地方政府各機關快速掌握輿情，並提供內容的檢核機制，加強政府新聞聯繫工作，以利掌握所屬各機關相關、當紅的議題網路聲量或媒體新聞動態，督促各局處建立迅速、有效之因應處理機制，提升行政效率。

宋浩指出，不論是「透事」或「蛛思」，都可以依據使用者的需求，來分析、呈現所關注的材料，讓使用者可以快速、精準地掌握網路世界脈動，做最即時的反饋和互動。未來，藍星球也將更專注於華文文字探勘技術的精進與應用，逐步站穩全球華文文字探勘的技術領導者。

參考網址：藍星球官網

（發佈時間：2019-11-05）