類似文字列検索ライブラリであるところのResemblaですが、利用に際してはビルド済みのパッケージが配布されていないため自分でビルドする必要があります。
が、Wikiに書かれているインストールドキュメントがCentOS 7のものになっており *1 、現代の環境で動かすにあたってはちょっと工夫が必要……ということで、2025年現代の環境で動作するDockerfileをここに共有します。
ポイントとしては
- mecab-ipadicではなくmecab-ipadic-utf8 を使う (thanks
id:tomo_ari and
id:ssig33) - icuのバージョンは59.1で固定
- grpcのバージョンはv1.2.5で固定
- Resemblaのビルドに際しても新しめのgccだとエラーが出るのでcstddefをincludeするようにワークアラウンドを入れる *2
という感じでしょうか。このようにしておくと動き、grpcを使ったインターフェイスも動作するところまで持ってゆくことができます。
mecab-unidicをインストールしたい場合、こちらにもちょっとコツが必要なので頑張りましょう:
https://t.co/qJfBQWHL5B が滅亡したことにより、このようなことが発生するhttps://t.co/aaIEIBH5An
— moznion (@moznion) 2025年7月23日
以上です。ご活用ください。