開始製作基督教中文詞庫作文字數據分析

做中文文字數據分析時,數據科學家需要先做中文分詞工作,但做聖經和基督教文章的文字數據分析,還是需要額外詞庫協助改善分詞結果,所以我想製作基督教中文詞庫。另一方面,我使用 YouVersion 聖經APP 時,搜尋中文字詞總會出現奇怪結果,可見中文搜尋和分詞有待改善,例如搜尋「以馬」(以馬內利、以馬忤斯),頭四個結果是正常。

然後幾個結果就不關「以馬」事了。

這個月我終於開始第一步,先取得聖經經文來試驗中文分詞 。在數據科學常用的 Python 語言﹐jieba 是常用的免費開源中文分詞套件。我寫了一個開源 web scraper 來收集所用的中文聖經經文,並用 jieba 的基本詞庫來分詞。

例如:

經文:人要稱他的名為以馬內利。
Jieba基本分詞:人要|稱|他|的|名為|以馬|內利|。
經文:(以馬內利翻出來就是「神與我們同在」。)
Jieba基本分詞:(|以馬|內利翻|出來|就是|「|神|與|我們|同|

我打算將來有時間和資源時,再寫程式做一個免費而開源的基督教聖經詞庫,讓 jieba 可直接使用,方便中文文字大數據分析等數據工作,或是較準備地搜尋中文聖經文字,或有利網上文章內容分析和機器學習。

誰是Ben?我代波蘭人上來深圳取開源源碼!

照片來源:Naomi ‘SexyCyborg’ Wu 的 YouTube 影片(CC BY)

早前波蘭開發者 Patrycja 發電郵向中國深圳公司 UMIDIGI 索取基於 Android 10 開發的 UMIDIGI F2 手機系統內核源碼,尤其 ft8719_dsi_fhdplus 顯示屏驅動程序。Android 10 的內核 Linux 和不少開源軟件都是以 General Public License 發佈程式和源碼,所以 Patrycja 是合理的。

但 UMIDIGI 一位署名 Ben 的人回覆 Patrycja,她可以在「辦公時間」上來「只會就中國國語」的深圳辦公室來「要求」索取源碼,還在括號中註明大多數都不是「自由」和由 MediaTek 擁有。

Patrycja 就張貼在 Twitter 帳戶上說:到目前為止,這是我「最喜愛」的企業溝通。然後有另一位開發者 cc 給深圳技術推廣者兼 YouTuber 機械妖姬 Naomi Wu(SexyCyborg)。

機械妖姬回覆杖義一試,並在 Twitter 向 UMIDIGI 預告,這星期她會親身上來深圳南山區的 UMIDIGI 辦公室,索取有關源碼並拍攝 YouTube 影片,向她的外國觀眾展示中國人並不會偷智識產權,亦會遵守開放源碼授權條款。

8月20號,機械妖姬在 Twitter 先發佈一段一分鐘短片,主要是她走入 UMIDIGI 辦公室內問誰是 Ben,她現在按照電郵上來拿取開源代碼。公司有員工說 Ben 已離開公司了,她問現在誰跟進這件事?

昨天(8月26號)機械妖姬再在 YouTube 發佈完整版,後來 UMIDIGI 的前台人員出來了解,前台人員請她留下 WeChat 微信帳號,並保證公司會聯絡她。而 UMIDIGI 最終亦有按照 GPL 向 Patrycja,Patrycja 在 Twitter 分享源碼能幫助她的開發工作。

Software Freedom Conservancy 亦為這事件發了一篇 “…Anyone???” 的網誌,亦說如果各公司也遵守開源授權條款中的承諾,這世界將會如何呢?

Flogo 建立物聯網開源生態

為促進物聯網應用開發,TIBCO 軟件公司以 Go 語言開發一套超輕型的開源專案 Flogo,以 BSD-3 授權釋出源碼,協助企業和開發者創造事件驅動程式,發展物聯網的開源生態。

Flogo 生態系統設計一套抽象事件驅動範式,讓開發者建立後,能應用在不同地方,處理任何已支援的程式行動。Flogo 包括核心 Core、微閘道 Microgateway、 事件串流Streams、規則 Rules、事件流 Flows。Flogo 亦可透過 Tensorflow 進行機器學習介入事件。

Flogo Core 是輕型應用內核,執行碼只有 10MB。它負責處理由 IoT 裝置傳送到雲端和 IoT Edge 應用程序的事件,應用程序透過行動 Actions 和扳機 Triggers 來處理基本事件,還可加上活動 Activities。

微閘道 Microgateway 可依照邏輯條件協助事件內容分流和限流,以至執行策略。Streams 可預先處理通訊管道中事件串流,方便行動 Actions 處理事件。Rules 偵測不同來源的事件形態和走向,來決定下一步行動。而 Flows 幫助活動 Activities 連接其他應用、數據庫和 API 應用程式介面。

除了 Go 語言外,Flogo 亦提供 Web 和指令介面,讓開發者簡單而輕鬆開發。亦可支援 Kafka 數據串流處理和 AWS Lambda 無伺服器計算。

Flogo 專案網站: https://www.flogo.io/
GitHub: https://github.com/tibcosoftware/flogo
TIBCO 網站: https://www.tibco.com/