[項目] postagger.rs-一個以 NLTK 為靈感的 Rust 語音部分標記器

https://www.reddit.com/r/LanguageTechnology/comments/1bsry44/project_postaggerrs_an_nltkinspired_partsofspeech/

[專案] postagger.rs – 用 Rust 編寫的受 NLTK 啟發的詞性標記器

動機

詞性標記器是 NLP 流程中重要的工具,有助於了解句子的結構和其中實體的性質。Python 的 nltk 套件使用兩種詞性標記器,即 AveragedPerceptronTagger 和 StanfordTagger,這兩者使用從 nltk_data 倉庫下載的預訓練權重。如果有人希望將現有的 NLP 流程用 Rust 重新實現,詞性標記器是必不可少的。

專案

postagger.rs 是 AveragedPerceptronTagger(原本是用 Python 寫的)的重寫版本,使用與 Python 版本相同的權重。除了 Rust API 以外,我還使用 cbindgen 生成了 C 綁定和 JNI 生成了 Java 綁定。

撰寫 FFI 時十分困難,因為要在介面間傳輸自訂的 C 結構(或 Java 物件)。在 Java 包裝器中,我必須返回一個 JSON 字串以處理返回自訂物件的複雜性。這在 C 中並不是問題,多虧了 cbindgen。

該庫可在 crates.io 上取得,並可在 GitHub 上找到:https://github.com/shubham0204/postagger.rs

如果 Rust + ML 的愛好者能參與這個專案,我將十分高興。我們也可以考慮開發其他 NLP 工具或改進正在積極開發中的工具。

Python 和 JavaScript 的包裝器(透過 WASM)正在開發中

最初發佈在 r/rust

提交者:/u/shubham0204_dev
[連結][留言]

via r/LanguageTechnology

April 1, 2024 at 10:12AM

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *