開始製作基督教中文詞庫作文字數據分析

做中文文字數據分析時,數據科學家需要先做中文分詞工作,但做聖經和基督教文章的文字數據分析,還是需要額外詞庫協助改善分詞結果,所以我想製作基督教中文詞庫。另一方面,我使用 YouVersion 聖經APP 時,搜尋中文字詞總會出現奇怪結果,可見中文搜尋和分詞有待改善,例如搜尋「以馬」(以馬內利、以馬忤斯),頭四個結果是正常。

然後幾個結果就不關「以馬」事了。

這個月我終於開始第一步,先取得聖經經文來試驗中文分詞 。在數據科學常用的 Python 語言﹐jieba 是常用的免費開源中文分詞套件。我寫了一個開源 web scraper 來收集所用的中文聖經經文,並用 jieba 的基本詞庫來分詞。

例如:

經文:人要稱他的名為以馬內利。
Jieba基本分詞:人要|稱|他|的|名為|以馬|內利|。
經文:(以馬內利翻出來就是「神與我們同在」。)
Jieba基本分詞:(|以馬|內利翻|出來|就是|「|神|與|我們|同|

我打算將來有時間和資源時,再寫程式做一個免費而開源的基督教聖經詞庫,讓 jieba 可直接使用,方便中文文字大數據分析等數據工作,或是較準備地搜尋中文聖經文字,或有利網上文章內容分析和機器學習。

誰是Ben?我代波蘭人上來深圳取開源源碼!

照片來源:Naomi ‘SexyCyborg’ Wu 的 YouTube 影片(CC BY)

早前波蘭開發者 Patrycja 發電郵向中國深圳公司 UMIDIGI 索取基於 Android 10 開發的 UMIDIGI F2 手機系統內核源碼,尤其 ft8719_dsi_fhdplus 顯示屏驅動程序。Android 10 的內核 Linux 和不少開源軟件都是以 General Public License 發佈程式和源碼,所以 Patrycja 是合理的。

但 UMIDIGI 一位署名 Ben 的人回覆 Patrycja,她可以在「辦公時間」上來「只會就中國國語」的深圳辦公室來「要求」索取源碼,還在括號中註明大多數都不是「自由」和由 MediaTek 擁有。

Patrycja 就張貼在 Twitter 帳戶上說:到目前為止,這是我「最喜愛」的企業溝通。然後有另一位開發者 cc 給深圳技術推廣者兼 YouTuber 機械妖姬 Naomi Wu(SexyCyborg)。

機械妖姬回覆杖義一試,並在 Twitter 向 UMIDIGI 預告,這星期她會親身上來深圳南山區的 UMIDIGI 辦公室,索取有關源碼並拍攝 YouTube 影片,向她的外國觀眾展示中國人並不會偷智識產權,亦會遵守開放源碼授權條款。

8月20號,機械妖姬在 Twitter 先發佈一段一分鐘短片,主要是她走入 UMIDIGI 辦公室內問誰是 Ben,她現在按照電郵上來拿取開源代碼。公司有員工說 Ben 已離開公司了,她問現在誰跟進這件事?

昨天(8月26號)機械妖姬再在 YouTube 發佈完整版,後來 UMIDIGI 的前台人員出來了解,前台人員請她留下 WeChat 微信帳號,並保證公司會聯絡她。而 UMIDIGI 最終亦有按照 GPL 向 Patrycja,Patrycja 在 Twitter 分享源碼能幫助她的開發工作。

Software Freedom Conservancy 亦為這事件發了一篇 “…Anyone???” 的網誌,亦說如果各公司也遵守開源授權條款中的承諾,這世界將會如何呢?

回顧東奧:反思香港

上星期日東京奧運閉幕了,這屆奧運令我很感觸,讓我感受到奧運精神中那份跨國運動員的愛,和香港運動員的堅持和信念遠比社會當權者高。

滑板選手間的愛

有天我吃午飯時,偶然看到滑板項目的女子街板決賽,運動員每次不論成功完成動作,或是跌倒失敗,她們總是笑著起身再試。雖然大家是比賽競爭對手,但最深刻是運動員間多次彼此鼓勵、安慰、擁抱。而且八位決賽選手很多都是年輕,甚至近半只是12-13歲,就算擦傷流著血也面不改容。除了她們的演出和技術吸引我之外,她們之間的愛,對滑板的愛,安撫在這國際疫情大流行、香港政治社會環境急速變差的悲痛。

香港運動員的堅持和反勝

今屆奧運香港運動員突破,獲得1金2銀3銅共六面獎牌。張家朗參與男子花劍項目,在八強時,對手保洛戴斯夫9:14只差一劍就擊敗張家朗進入四強。大家沒料到張家朗能一分一分連追6劍,以15:14反勝對手進級,最終張家朗贏得金牌。

接著何詩蓓在女子200和100米自由泳贏得兩面銀牌,香港隊(杜凱琹、李皓晴、蘇慧音)在女子團體乒乓球獲得銅牌,劉慕裳亦在女子個人型空手道贏得銅牌。奧運閉幕當日,李慧詩在女子場地單車爭先賽中再獲得銅牌,可見香港運動員的堅持和反勝。

奧運開始不久,親共民建聯成員穆家駿先在 facebook 惡意批評香港羽毛球「一哥」運動員伍家朗,「強烈譴責」伍家朗穿著沒有區旗標識的運動服出賽,並說伍家朗「如果不想代表中國香港,請選擇退賽!」。身為中學老師的穆家駿,沒有先選擇友善查詢,就動以文革式批鬥一位傑出運動員。伍家朗就算無辜影響到自己心情,也壓抑著情緒,理性地在instagram 回應球衣情況:剛沒有球衣贊助、自行安排合比賽條例、印有英文姓名和代表地區的球衣、香港法例列明不能自行印製區旗圖案。雖然伍家朗一下子就「反勝」穆家駿﹐可惜接著下一天在賽場上就輸了比賽,不像平常的他應有的表現和狀態,賽後伍家朗還說自己會向前看。

然後明明有錯、無事生事的穆家駿選擇暫時隱藏 facebook 專頁,轉頭卻在大陸微博發帖說受到黃絲攻擊。穆家駿為人師表,那麼輕易在社交網絡發表政治批鬥運動員,再來政治批鬥詆毀社會大眾。我認為穆家駿有違教育專業,而伍家朗卻清楚展示運動員精神,只可惜賽場卻不在奧運,強行被穆拉上政治賽場。

未獲獎牌的香港競走代表程小雅,立場新聞報道她因為只在奧運獲得第 35 名,根據香港體育學院的精英訓練資助準則,她的薪金需減一萬元,會由二萬多元減到一萬多元。香港運動員能參賽奧運已經難得,還要減薪是否荒謬?

當權者缺乏智慧,沒以運動帶動社會發展

香港對運動發展不足,今年香港環境和國際疫情嚴重影響,難得四年一度的奧運終能舉行,但一些以權謀私的人還進一步打擊香港運動員。

香港運動員和市民對運動的熱誠一直存在,可惜當權者缺乏和不當投資,沒有設立不同的新制度,讓商界和社會共同分擔對不同運動的支持,也沒有善用地區設施,各自為政而沒有以 common good 來規劃重新運用和管理現有地區設施和合作,所以未能有效地釋放為香港帶來的潛能和社會環境。

圖片:Studio Incendo(Creative Commons CC-BY)