本文へ移動

データベース

データベース

『現代日本語書き言葉均衡コーパス』はオンライン版(

2024-02-03

『現代日本語書き言葉均衡コーパス』(BCCWJ)は、現代日本語の書き言葉の全体像を把握するために構築したコーパスであり、現在、日本語について入手可能な唯一の均衡コーパスです。書籍全般、雑誌全般、新聞、白書、ブログ、ネット掲示板、教科書、法律などのジャンルにまたがって1億430万語のデータを格納しており、各ジャンルについて無作為にサンプルを抽出しています。

すべてのサンプルは長短ふたつの言語単位を用いて形態素解析されており、さらに文書構造に関するタグや精密な書誌情報も提供されています。著作権処理も施されていますので、安心して使っていただけます。

『現代日本語書き言葉均衡コーパス』はオンライン版(無償:少納言・中納言での公開)およびオフライン版(有償)にて計三通りの方法で公開しています。商業目的での利用をご希望の場合は、個別に検討させていただきますので、下記までご連絡ください。

中納言・KOTONOHAで検索可能なコーパスリスト(2023年06月現在)
TOPへ戻る