日本語研究所について思いをめぐらすことがあった。国語研究所に対して、日本語学、言語学、日本語教育研究を中心とした研究機関という解説が行われて、名称のことでもあるから、国立国語研究所 NINJAL と言って、大学共同利用機関法人人間文化研究機構が設置する大学共同利用機関の一つとある。この3月に、研究成果を、梵天の一般公開版で、この258億のコーパスに対する文字列検索を可能とした。2010年に、1億語規模の、現代日本語書き言葉均衡コーパスを公開している。この規模の集約は、コトノハ計画とする。これまでのデータを空間軸と時間軸をとって配置しているようである。国立国語研究所コーパス開発センターでは、
日本語の全貌を把握するための言語コーパス (language corpus)を構築しています、と紹介する。
http://pj.ninjal.ac.jp/corpus_center/kotonoha.html
>
国立国語研究所では、1948年の創立以来、現代日本語の実態を科学的に明らかにするための大規模な調査研究を実施してきました。
現在はそのために日本語データベースの長期整備計画である「KOTONOHA」計画(以下、KOTONOHA)を立案し、書き言葉と話し言葉の両方について、平安時代から現代にいたる日本語のデータを幅広く蓄積することに取り組んでいます。KOTONOHAは日本語の全体像を把握するための一連のコーパスの総称であり、複数のコーパスから構成されています。
>
中ほどの「近代雑誌」(太陽・女性雑誌・明六雑誌)の三つのコーパス、右の「CSJ(日本語話し言葉コーパス)」、「BCCWJ(現代日本語書き言葉均衡コーパス)」は、すでに構築を完了し、一般に公開しています。現在は、「日本語歴史コーパス(CHJ)」と「国語研日本語ウェブコーパス(旧名称:超大規模コーパス)」の二つのコーパスの構築を進めています。
現代日本語書き言葉均衡コーパス(BCCWJ)
日本語話し言葉コーパス(CSJ)
太陽コーパス
近代女性雑誌コーパス
明六雑誌コーパス
日本語歴史コーパス【 構築中 】
国語研日本語ウェブコーパス【 構築中 】
http://pj.ninjal.ac.jp/corpus_center/nwjc/
> 概要
『国語研日本語ウェブコーパス』の概要
『国語研日本語ウェブコーパス』はウェブを母集団として100 億語規模を目標として構築した日本語コーパスです。 ウェブ(WWW)上の日本語テキストを利用して100億語を超える規模の現代日本語コーパスを構築することによって、稀言語現象の言語学的、心理学的および情報処理的視点からの究明の可能性を開くことを目的としています。 具体的な応用として、言語研究のための用例収集、日本語使用実態の定量的な把握などを想定しています。
検索系「梵天」
「国語研日本語ウェブコーパス」は検索系「梵天」に格納して公開しています。
http://bonten.ninjal.ac.jp/
検索系として「文字列検索」「品詞列検索」「係り受け部分木検索」の3通りの検索機能を提供します。 一般公開版は「文字列検索」のみが利用できます。 高機能版は講習会の参加が必要です。
フロンドエンドはコーパス管理ソフトウェア「ChaKi.NET」を参考にして、ウェブ上で動作するインターフェイスの開発を株式会社万葉に委託しました。 バックエンドには株式会社レトリバのSedue for Bigdataを用いています。
データについて
データの基礎統計
「梵天」には 2014年10-12月収集データを格納しています。格納データの基礎統計は以下のとおりです:
収集URL数 83,992,556
文数(のべ数) 3,885,889,575
文数(異なり数) 1,463,142,939
国語研短単位数 25,836,947,421
データの構築手法について
ウェブアーカイブの構築で用いられる Heritrix クローラを運用することで1年間にわたって3か月おきに、固定した約1億URLのウェブページを収集しました。 得られたウェブページはnwc-toolkitを用いて、日本語文抽出と正規化を行いました。 コピーサイトの問題を緩和するために、文単位の単一化(文の異なりをとること)を行いました。 形態素解析器MeCab-0.996 と形態素解析用辞書UniDic-2.1.2を用いて形態素解析を行い、 さらにUniDic 主辞規則に基づく係り受け解析器CaboCha-0.69により係り受け解析を行っています。
258億語の日本語コーパスをウェブで公開~国立国語研究所
言語研究や自然言語処理技術開発での基礎資料
岩崎 宰守2017年3月6日 14:51
>
大学共同利用機関法人人間文化研究機構国立国語研究所は、258億語規模の「国語研日本語ウェブコーパス(NWJC)」と、これを対象にした検索システム「梵天」を3月7日より一般公開する。
生活で使われた書きことばや話しことばのデータを大量に集積した「コーパス」は、言語研究に加え、辞書作成時の参照データ、機械翻訳や音声認識における基礎データとして利用されるもの。
NWJCは、2014年10~12月にインターネット上で8399万2556のURLから収集した258億3694万7421のコーパスを収録。文数では14億6314万2939、のべ文数は38億8588万9575に上るデータが格納されている。
データの構築にあたっては、ウェブアーカイブの構築で用いられる「Heritrixクローラ」を用い、約1億URLのウェブページを1年間にわたり3カ月おきにバルク収集。文単位で重なりを省く単一化を行った上、「nwc-toolkit」により日本語文の抽出と正規化が実施されている。さらに機械学習に基づき、形態素解析器「MeCab-0.996」と形態素解析用辞書「UniDic-2.1.2」による形態素解析と、UniDic主辞規則に基づく係り受け解析器「CaboCha-0.69」による係り受け解析が行われている。
http://blog.goo.ne.jp/gooksky/e/44bc063e75e9afae7a90bce71bc41ba2
日本語研究所がない
2016-09-30 04:58:04 | ほんとうのところは
東京日本語研究所 - 日本語学校データベース
www.aikgroup.co.jp › トップページ › 検索
所在地, 〒169-0072 東京都新宿区大久保2-4-15 サンライズ新宿 2F. 最寄りの駅, (地)西早稲田駅. TEL, 03-5287-1751. FAX, 03-5287-1752. 学校ホームページ, ―. 電子メール, ―. 設置者, (株)東京日本語研究所(大沢 豊). 校長, 大沢 豊. 認可年月日, 1991 ...
日本語研究所
www.takada-jc.ac.jp/washio/kougi/kyouiku-kougaku/2004/webwork/meijo12/
2011/01/20 - 日本人にとっては当たり前に使えないといけないはずの日本語。 でも、貴方の日本語は本当に正確でしょうか? ここでは、普段生活する中で意外と失敗してしまいがちな部分を解明したいと思います。