このサイトでは独立行政法人国立国語研究所の日本語コーパス開発計画であるKOTONOHAプロジェクトおよび文科省科学研究費特定領域研究「日本語コーパス」プロジェクトが共同で開発を進めている『現代日本語書き言葉均衡コーパス』(以下では「本コーパス」と略称します)のデモンストレーション版を検索することができます。本コーパスでは、今後、数万人におよぶ著作権者の方々にサンプルの無償利用の許諾をお願いすることになります。本サイトは、著作権者の方々にサンプルがどのように利用されるかを理解していただくために開設したものです。
まず、現在表示されている画面下の「デモ版を試用する」ボタンをクリックして検索条件指定画面に移動します。
次に検索したい文字列を「検索文字列」に全角文字で入力してください。本コーパスではアルファベット、数字、句読点もふくめてすべての文字が全角で入力されていますので、半角文字は使わないでください。
検索文字列指定画面ではテキストの媒体と出版年を指定することができます。より細かいジャンルや年代を指定する場合は
をクリックして選択肢を開いたのち、指定したい条件をチェックしてください。
検索文字列を入力したら「検索」ボタンをクリックしてください。検索結果画面に検索結果が表示されます。
検索結果は検索結果画面に表示されます。左から順に「前文脈」「検索文字列」「後文脈」「執筆者」「生年代」「性別」「ジャンル」「書名/出典」「副題/分類」「巻号」「編著者等」「出版者」「出版年」「備考」が表示されます。
検索結果画面では表の見出しをクリックするとその列の文字列でソートすることができます。ソートを解除して検索結果の初期状態にもどすには、ブラウザの「表示」メニューから「最新の情報に更新」を選択してページを再度読み込んでください。

現在(2009年3月末)検索対象となっているのは、政府刊行白書から無作為抽出されたサンプル(1500件、約500万語)、参加者同士で知識を教えあうことを目的としたQ&A形式のナレッジコミュニティーサービスである「Yahoo!知恵袋」から無作為抽出されたサンプル(45725件、約500万語)、過去30年間の国会会議録から無作為抽出されたサンプル(159会議、約500万語)、そして一般の書籍から抽出したサンプル(8821件、約2400万語)の4種類のデータです。これらのすべてについて、著作権者から利用を許諾していただいています。
ひとつのテキストからは長さの異なる二種類のサンプルを採取しています。ひとつは長さを1000字に固定したサンプル (固定長サンプル)、もうひとつは、節や章など文章の意味上のまとまりに対応した単位の全体です (可変長サンプル)。これまでの調査によれば、可変長サンプルの平均長は新聞で約1000字、書籍で4000字弱です。
本コーパスに収録するサンプルの大部分は、公開されている各種出版データや東京都下の公共図書館の蔵書データを母集団として、そこから無作為に抽出されたものです。特定の本や雑誌の特定の一部分がサンプルとして選択されているのは、無作為抽出の結果、偶然そこが選択された結果です。語学ないし文学の立場からの価値判断は一切おこなっていません。本コーパスが現代日本語の書き言葉を代表するとみなされうるのは、新聞社などが実施する無作為抽出にもとづく世論調査が日本国民を代表するのと同じ意味においてです。



