開始製作基督教中文詞庫作文字數據分析

做中文文字數據分析時,數據科學家需要先做中文分詞工作,但做聖經和基督教文章的文字數據分析,還是需要額外詞庫協助改善分詞結果,所以我想製作基督教中文詞庫。另一方面,我使用 YouVersion 聖經APP 時,搜尋中文字詞總會出現奇怪結果,可見中文搜尋和分詞有待改善,例如搜尋「以馬」(以馬內利、以馬忤斯),頭四個結果是正常。

然後幾個結果就不關「以馬」事了。

這個月我終於開始第一步,先取得聖經經文來試驗中文分詞 。在數據科學常用的 Python 語言﹐jieba 是常用的免費開源中文分詞套件。我寫了一個開源 web scraper 來收集所用的中文聖經經文,並用 jieba 的基本詞庫來分詞。

例如:

經文:人要稱他的名為以馬內利。
Jieba基本分詞:人要|稱|他|的|名為|以馬|內利|。
經文:(以馬內利翻出來就是「神與我們同在」。)
Jieba基本分詞:(|以馬|內利翻|出來|就是|「|神|與|我們|同|

我打算將來有時間和資源時,再寫程式做一個免費而開源的基督教聖經詞庫,讓 jieba 可直接使用,方便中文文字大數據分析等數據工作,或是較準備地搜尋中文聖經文字,或有利網上文章內容分析和機器學習。

香港新常態下的福音使命 – Indigitous 2021

經過 2019 年社會運動到 2020 年疫情流行全世界,社會環境和聚會形式急劇轉變。在這新常態下,香港基督徒應繼續用不同的新方法履行福音使命。

我們現生活於數碼年代,年青一代出世便已成「數碼原住民」(Digital Indigenous)。因此多年前學園傳道會發起 Indigitous 活動(把 Digit 放在 Indigenous 的心 = InDIGITous),邀請全球各地基督徒,嘗試跨堂會信徒討論和試驗,透過數碼科技實踐大使命。

我們邀請大家 9 月 4 號星期六早上一同參與商討日 Brainstorming Day,藉聖靈感召來腦震動一下,先作活動簡介和討論香港新常態下我們的福音使命。

報名 9 月 4 號 Brainstorming Day: https://www.eventbrite.com/e/indigitous-brainstorming-day-tickets-166163693079 (8月9號開始報名)

哥林多前書第12章,神藉著聖靈給我們禮物、天賦,各信徒按不同的恩賜在教會事、職場上事奉。我們是基督的肢體彼此結連,就讓我們接續在十月份一個週末時間(10月22-24號)參與 Indigitous #HACK 2021 黑客松(hackthon),運用各人不同的恩賜來合作,嘗試實踐不同的使命。我們將在 Brainstorming Day 後開始 #HACK 活動報名。

沒想法?不明白?來些實例吧….

還沒有想法?或是仍不明白做甚麼?我嘗試提供外國曾做的、香港過往參加者曾討論的、以及自己個人的想法,讓大家思考有沒有感召和新想法。

Indigitous #HACK 黑客松不需要懂得寫程式才能參與,例如新加坡 indigitous 參加者建立一個關顧自殺問題的網站,幫助人尋找協助和支援。可見參加者只需懂得運用一般數碼平台,懂上網就能參與其中。

Mission Aviation Fellowship(MAF)是一個航空界團契,有機師開專機到一些沒接觸福音的地方,透過在單片電腦 Raspberry Pi 配合 BiblePi 軟件來傳福音。MAF 曾透過 indigitous 黑客松和挑戰項目邀請肢體改進 BibilePi 功能和內容。

在香港,過往 Indigitous 的參加者曾與一間教會商討牧養系統 Church CMS,記錄同工牧養不同肢體的時間和跟進紀錄。另外,香港基督教網上資源庫亦是一個值得做的,將網上資源整合一個索引,例如媒體網站、教會地圖等,方便信徒尤其初信者網上接觸合適資訊。反過來,我認為亦可建立異端資料庫,透過 AI 分析異端活動。

而我自己一直想把中文聖經,建立一個詞彙索引,方便中文經文搜索,尋找重覆出現詞語,詞語雲 word cloud 等,也可作中文斷字作數據分析,例如分析網上文章等AI幫助牧養分析。

以上只是眾多例子和想法的冰山一角,如果需要協助思考或查詢 Indigitous 活動,可電郵與我(Sammy Fung: [email protected])聯絡。亦希望能得到一些金錢支持參加者在活動上提神醒腦的飲食開支,和香港 indigitous 網站和網上開支,亦請與我們聯系

Indigitous 香港網站: indigitous.hk
Indigitous 官網: indigitous.org

【COSCUP 2019】基督教論壇報訪問翻譯語言科技資源

剛剛台灣之旅,除了為科技會議安排一天十多位香港講員的議程外,也幫助其中一位講員也是聖經翻譯弟兄聯絡台灣基督教論壇報,訪問他利用科技為少數民族翻譯聖經,接觸福音的事奉經歷。

「八月17-18日在台灣科技大學舉行的「開源人年會」(COSCUP,開源open source意同開放原始碼),吸引台灣及海外使用開放原始碼的華人社群齊聚。17日有場由香港講員分享的全日講座中,其中一位香港威克理夫聖經翻譯會會員凱豐先生(Dr. Jeremiah Chung),特別介紹華文聖經翻譯語言科技資源「Lingtransoft.info」,網站中有上百個相關軟體免費開放給華人社群使用,盼也成為協助華人基督徒參與宣教的工具。….」

科技打破語言障礙 Lingtransoft聖經翻譯軟體助華人宣教GO
文章來源:基督教論壇報