做中文文字數據分析時,數據科學家需要先做中文分詞工作,但做聖經和基督教文章的文字數據分析,還是需要額外詞庫協助改善分詞結果,所以我想製作基督教中文詞庫。另一方面,我使用 YouVersion 聖經APP 時,搜尋中文字詞總會出現奇怪結果,可見中文搜尋和分詞有待改善,例如搜尋「以馬」(以馬內利、以馬忤斯),頭四個結果是正常。
然後幾個結果就不關「以馬」事了。
這個月我終於開始第一步,先取得聖經經文來試驗中文分詞 。在數據科學常用的 Python 語言﹐jieba 是常用的免費開源中文分詞套件。我寫了一個開源 web scraper 來收集所用的中文聖經經文,並用 jieba 的基本詞庫來分詞。
例如:
經文:人要稱他的名為以馬內利。
Jieba基本分詞:人要|稱|他|的|名為|以馬|內利|。
經文:(以馬內利翻出來就是「神與我們同在」。)
Jieba基本分詞:(|以馬|內利翻|出來|就是|「|神|與|我們|同|
我打算將來有時間和資源時,再寫程式做一個免費而開源的基督教聖經詞庫,讓 jieba 可直接使用,方便中文文字大數據分析等數據工作,或是較準備地搜尋中文聖經文字,或有利網上文章內容分析和機器學習。