このサイトでは大学共同利用機関法人人間文化研究機構国立国語研究所の日本語コーパス開発計画であるKOTONOHAプロジェクトおよび文科省科学研究費特定領域研究「日本語コーパス」プロジェクトが共同で開発を進めている『現代日本語書き言葉均衡コーパス』(以下では「本コーパス」と略称します)のデモンストレーション版を検索することができます。本コーパスでは、今後、数万人におよぶ著作権者の方々にサンプルの無償利用の許諾をお願いすることになります。本サイトは、著作権者の方々にサンプルがどのように利用されるかを理解していただくために開設したものです。

利用法

まず、現在表示されている画面下の「デモ版を試用する」ボタンをクリックして検索条件指定画面に移動します。

次に検索したい文字列を「検索文字列」に全角文字で入力してください。本コーパスではアルファベット、数字、句読点もふくめてすべての文字が全角で入力されていますので、半角文字は使わないでください。

検索文字列指定画面ではテキストの媒体と出版年を指定することができます。より細かいジャンルや年代を指定する場合は をクリックして選択肢を開いたのち、指定したい条件をチェックしてください。

検索文字列を入力したら「検索」ボタンをクリックしてください。検索結果画面に検索結果が表示されます。

検索結果は検索結果画面に表示されます。左から順に「前文脈」「検索文字列」「後文脈」「執筆者」「生年代」「性別」「ジャンル」「書名/出典」「副題/分類」「巻号」「編著者等」「出版者」「出版年」「備考」が表示されます。

検索結果画面では表の見出しをクリックするとその列の文字列でソートすることができます。ソートを解除して検索結果の初期状態にもどすには、ブラウザの「表示」メニューから「最新の情報に更新」を選択してページを再度読み込んでください。

検索結果画面

本サイトの検索対象となっているサンプル

現在(2010年3月)検索対象となっているのは、一般の書籍から無作為抽出したサンプル(8821件、約2500万語)、政府刊行白書から無作為抽出したサンプル(1500件、約500万語)、過去30年間の国会会議録から無作為抽出したサンプル(159会議、約500万語)、2005年度版の検定教科書から無作為抽出したサンプル(412件、約100万語)、参加者同士で知識を教えあうことを目的としたQ&A形式のナレッジコミュニティーサービスである「Yahoo!知恵袋」から無作為抽出したサンプル(45725件、約500万語)、「Yahoo!ブログ」より無作為抽出したサンプル(24027件、約500万語)の6種類のデータ合計4600万語です。これらのすべてについて、著作権者から利用を許諾していただいています。

サンプルの長さ

ひとつのテキストからは長さの異なる二種類のサンプルを採取しています。ひとつは長さを1000字に固定したサンプル (固定長サンプル)、もうひとつは、節や章など文章の意味上のまとまりに対応した単位の全体です (可変長サンプル)。これまでの調査によれば、可変長サンプルの平均長は新聞で約1000字、書籍で4000字弱です。

サンプルの選択基準

本コーパスに収録するサンプルの大部分は、公開されている各種出版データや東京都下の公共図書館の蔵書データを母集団として、そこから無作為に抽出されたものです。特定の本や雑誌の特定の一部分がサンプルとして選択されているのは、無作為抽出の結果、偶然そこが選択された結果です。語学ないし文学の立場からの価値判断は一切おこなっていません。本コーパスが現代日本語の書き言葉を代表するとみなされうるのは、新聞社などが実施する無作為抽出にもとづく世論調査が日本国民を代表するのと同じ意味においてです。

それでは、実際に検索条件を指定して、デモンストレーションをお試しください。

デモ版を試用する

検索にあたっての注意点

検索文字列の制約:
本サイトで検索できる文字列は最長で10文字までです。

検索方式:
本サイトでは全文検索をおこなっていますので、指定された文字列を含むすべてのテキストが検索されます。例えば検索文字列に「リズム」を指定すると、「リズム」だけでなく、「アルゴリズム」や「フォルマリズム」などが検索され、「国語」を検索すると「母国語」「外国語」なども検索されます(本コーパスの正式公開版では、単語を単位とした検索ができるようになります)。

検索結果の上限:
検索文字列によっては非常に多くの検索結果が得られることがあります。その場合、本サイトでは500件で表示をうちきります。ただし最初に見つかった500件を表示するのではなく、一旦コーパス全体を検索したうえで、無作為に500件を選んで表示します。これは最初に見つかった500件だけを表示すると、検索結果がコーパスの冒頭部分に偏ってしまうためです。

検索結果とセッションの関係:
1回のセッション(本サイトへの接続)中に同じ文字列を検索した場合には同じ検索結果が返ってきます。しかし一旦セッションを打ち切り、その後再度接続した場合には、セッションごとに異なる検索結果が表示されます。

結果のダウンロード:
本サイトでは検索結果をダウンロードすることはできません。

■さらに詳しい情報

以下のURLに本コーパスに関連する情報が公開されています。ご参照ください。

KOTONOHA計画
http://www.ninjal.ac.jp/kotonoha/

特定領域研究「日本語コーパス」
http://www.tokuteicorpus.jp/

■お問い合せ

本サイトについてのお問い合わせはメールで以下にお願いします。
E_mail