🏠 sammy.hk » 開始製作基督教中文詞庫作文字數據分析

開始製作基督教中文詞庫作文字數據分析

Posted on 2021/08/30 by Sammy Fung — No Comments ↓

做中文文字數據分析時，數據科學家需要先做中文分詞工作，但做聖經和基督教文章的文字數據分析，還是需要額外詞庫協助改善分詞結果，所以我想製作基督教中文詞庫。另一方面，我使用 YouVersion 聖經APP 時，搜尋中文字詞總會出現奇怪結果，可見中文搜尋和分詞有待改善，例如搜尋「以馬」（以馬內利、以馬忤斯），頭四個結果是正常。

然後幾個結果就不關「以馬」事了。

這個月我終於開始第一步，先取得聖經經文來試驗中文分詞。在數據科學常用的 Python 語言﹐jieba 是常用的免費開源中文分詞套件。我寫了一個開源 web scraper 來收集所用的中文聖經經文，並用 jieba 的基本詞庫來分詞。

例如：

經文：人要稱他的名為以馬內利。
Jieba基本分詞：人要|稱|他|的|名為|以馬|內利|。

經文：（以馬內利翻出來就是「神與我們同在」。）
Jieba基本分詞：（|以馬|內利翻|出來|就是|「|神|與|我們|同|

我打算將來有時間和資源時，再寫程式做一個免費而開源的基督教聖經詞庫，讓 jieba 可直接使用，方便中文文字大數據分析等數據工作，或是較準備地搜尋中文聖經文字，或有利網上文章內容分析和機器學習。

About Sammy Fung

Sammy Fung 是熱情的 IT 技術領袖和演講者，擁有開源軟件、開放數據、Python 方面的深厚專業知識。目前作為開發者關係專業人士，推動開發者參與和倡導，通過有影響力的舉措促進充滿活力的技術社區並賦能開發者。

View all posts by Sammy Fung →

發佈留言取消回覆