先日記事にした、Lee & Hasegawa 2011について、感想を記したいと思います。まず問題点から。著者もちゃんと気づいて議論してるのですが。
1. 系統樹の再構が安定してない
図2の一部をコピーして上の画像にしました。このように、日本語族に属する言語・方言が樹状の分岐モデルの最下部のノードにそれぞれ位置づけられるわけですが、MCMC法で得られた9000の系統樹全てがこの分類になるわけではなく、さまざまに違った分類の系統樹もあるワケです。この図に沿えられた数字は、論文内で"percentage support for the following node"と呼ばれてるもので、おそらく「このノードに、以下の方言が含まれたのは9000の系統樹サンプルのうち何%か」ということだと思います。で、この数字が高くならないところがあると。
高いのは、沖縄、九州、(まあ)近畿、(下位区分レベルで)東北、北陸、あたりでしょうか。一方、中部、関東はあまりよくない。神奈川と千葉が他の関東方言と分かれて北陸3県といっしょになったり、図のように東京と山梨だけが、北海道といっしょになったり。また、数字が入ってないノードがあるんですが、それは上記"percentage support"が50%を割っているもの。これがけっこうあって、つまり同じ樹形図が安定して得られないと。
これは沖縄と違って、本土が地続きで横の伝播があるから、というのが筆者たちの上げる理由の一つ。とすれば、系統樹モデルは適切でないかもしれないのだけど、そこは周到にNeighbor Net分析というものの結果も添えています。本州の各方言の距離が沖縄に比べると近くて、地理的な障壁がないための伝播の影響を考慮すると、本土方言相互の関係はこちらのモデルの方が適切かも、ということだと思います。
2. いくつかの下位区分が疑問
それでもやはり、いくつかの下位分類は従来の方言学による区分に照らして疑問を覚えます。たとえば上記の神奈川・千葉の位置がそうですし、上の画像の中では、本土方言がまず大きく二つに、「北海道・山梨・東京」とそれ以外に分かれる、なおかつこの3つが一グループになるのが91%と比較的安定しているのは妙。これは、上記のNeighbor Netなら解決するというわけでなく、そちらでもやはりこの3方言は上代日本語、中世日本語といちばん近いという結果。でも、上代・中世日本語って、当時の京都方言なんだから...
だから、おそらくモデルではなくてデータにこういう結果を生む要素があるのでしょう。データは同源語(Cognate)のセットですが、音声変化による異動は考慮せず、どんなに形が変わっていてもCognateと認められれば「同源語を共有している(それだけ近い)」となります。これは、語の入れ替えを、遺伝子の突然変異のように、時間の経過とともに生起する確率的過程としてモデル化するわけだから当然の処理ではありますが、言語変化のモデルとしてはいくらか不適切なところがあるかもしれません。
3. 分岐年代が新しすぎる
画像のいちばん左の分岐は、室町時代語とその他との分岐なのですが、これが現在から650年ほど前、南北朝時代に当たります。このモデルを額面どおり受け入れれば、ここで、それと袂を分かったものが、現代本土方言全ての祖形ということになります。でも、たとえば万葉集や、日蓮遺文などに反映される奈良・鎌倉時代の東国方言の存在をわれわれは知っているわけですが、それを示唆するような分岐はこの樹形図のどこにも出て来ません。このことも筆者は指摘しています。たとえば、本土日本語に生じていた多様性が奈良時代の王権成立とともに吸収され、失われたか、のちの世に残らず消えてしまったという可能性を指摘しています。
しかし、これはたんに現代諸言語・方言以外の資料が「奈良時代語」と「室町時代語」(両方とも時代別国語辞典が資料)しかないから、に過ぎない可能性はないでしょうか。分子生物学のばあい、化石からも遺伝子サンプルが採れるようですが、過去の言語の資料はこれに比べるとたいてい貧困です。新しい人類の化石が発見され、その資料を加えた分析が、人類の進化の新たなシナリオを示すように、古代の方言資料が得られたとして、それを加えて分析をしたら、たとえば琉球諸語や八丈方言の位置づけが変わって、大元の分岐の年代も変わる、なんてことはないのでしょうか。まあ、結論が変わるほど大きな変化にはならないのかもしれません。
ともあれ、採られている手法は堅実で、このアプローチで明らかにできることは、かなりやり切ったように見えます(ろくに知らないで言うのもおこがましい話ですが)。
もう一つ、素晴らしいと思ったことについて(基本的にみんな素晴らしいと思うのですが)。この研究では、語彙の置換について4つのモデルを比較しています。ベイズ統計で処理した上で、Bayes Factorを推定して、ベストのモデルを選んでいます。選ばれたのは(1)言語ごとに語の入れ替えのペースが異なる、かつ、(2)時期によって語の入れ替えのペースが早くなったり遅くなったりする、というモデルでした。納得がいく結論ですが、それ以上に、実データの分析によって語彙置換の進行に関するモデルを比較検討できる、というのが魅力的です。このように、手法の詳細もかなり丁寧に説明しているので、非常に勉強になりました。日本語史に関心のある方は必読だと思います。
最後に、気になることをひとつ。前回、朝鮮日報がこの発見を強引に、結びつくはずのない韓国語と結びつけていると紹介しましたが、逆に、日本のメディアが、とりあえず朝読毎のWebを見ましたが、この注目の研究を紹介した気配がありません。Webだからでしょうか。自国民の自尊心をくすぐりたいからか、正しくない取り上げ方をするのも問題ですが、もし日本のメディアが逆にそういう研究にあえてスポットを当てないのだとしたら、それも情けなく思います。
1. 系統樹の再構が安定してない
図2の一部をコピーして上の画像にしました。このように、日本語族に属する言語・方言が樹状の分岐モデルの最下部のノードにそれぞれ位置づけられるわけですが、MCMC法で得られた9000の系統樹全てがこの分類になるわけではなく、さまざまに違った分類の系統樹もあるワケです。この図に沿えられた数字は、論文内で"percentage support for the following node"と呼ばれてるもので、おそらく「このノードに、以下の方言が含まれたのは9000の系統樹サンプルのうち何%か」ということだと思います。で、この数字が高くならないところがあると。
高いのは、沖縄、九州、(まあ)近畿、(下位区分レベルで)東北、北陸、あたりでしょうか。一方、中部、関東はあまりよくない。神奈川と千葉が他の関東方言と分かれて北陸3県といっしょになったり、図のように東京と山梨だけが、北海道といっしょになったり。また、数字が入ってないノードがあるんですが、それは上記"percentage support"が50%を割っているもの。これがけっこうあって、つまり同じ樹形図が安定して得られないと。
これは沖縄と違って、本土が地続きで横の伝播があるから、というのが筆者たちの上げる理由の一つ。とすれば、系統樹モデルは適切でないかもしれないのだけど、そこは周到にNeighbor Net分析というものの結果も添えています。本州の各方言の距離が沖縄に比べると近くて、地理的な障壁がないための伝播の影響を考慮すると、本土方言相互の関係はこちらのモデルの方が適切かも、ということだと思います。
2. いくつかの下位区分が疑問
それでもやはり、いくつかの下位分類は従来の方言学による区分に照らして疑問を覚えます。たとえば上記の神奈川・千葉の位置がそうですし、上の画像の中では、本土方言がまず大きく二つに、「北海道・山梨・東京」とそれ以外に分かれる、なおかつこの3つが一グループになるのが91%と比較的安定しているのは妙。これは、上記のNeighbor Netなら解決するというわけでなく、そちらでもやはりこの3方言は上代日本語、中世日本語といちばん近いという結果。でも、上代・中世日本語って、当時の京都方言なんだから...
だから、おそらくモデルではなくてデータにこういう結果を生む要素があるのでしょう。データは同源語(Cognate)のセットですが、音声変化による異動は考慮せず、どんなに形が変わっていてもCognateと認められれば「同源語を共有している(それだけ近い)」となります。これは、語の入れ替えを、遺伝子の突然変異のように、時間の経過とともに生起する確率的過程としてモデル化するわけだから当然の処理ではありますが、言語変化のモデルとしてはいくらか不適切なところがあるかもしれません。
3. 分岐年代が新しすぎる
画像のいちばん左の分岐は、室町時代語とその他との分岐なのですが、これが現在から650年ほど前、南北朝時代に当たります。このモデルを額面どおり受け入れれば、ここで、それと袂を分かったものが、現代本土方言全ての祖形ということになります。でも、たとえば万葉集や、日蓮遺文などに反映される奈良・鎌倉時代の東国方言の存在をわれわれは知っているわけですが、それを示唆するような分岐はこの樹形図のどこにも出て来ません。このことも筆者は指摘しています。たとえば、本土日本語に生じていた多様性が奈良時代の王権成立とともに吸収され、失われたか、のちの世に残らず消えてしまったという可能性を指摘しています。
しかし、これはたんに現代諸言語・方言以外の資料が「奈良時代語」と「室町時代語」(両方とも時代別国語辞典が資料)しかないから、に過ぎない可能性はないでしょうか。分子生物学のばあい、化石からも遺伝子サンプルが採れるようですが、過去の言語の資料はこれに比べるとたいてい貧困です。新しい人類の化石が発見され、その資料を加えた分析が、人類の進化の新たなシナリオを示すように、古代の方言資料が得られたとして、それを加えて分析をしたら、たとえば琉球諸語や八丈方言の位置づけが変わって、大元の分岐の年代も変わる、なんてことはないのでしょうか。まあ、結論が変わるほど大きな変化にはならないのかもしれません。
ともあれ、採られている手法は堅実で、このアプローチで明らかにできることは、かなりやり切ったように見えます(ろくに知らないで言うのもおこがましい話ですが)。
もう一つ、素晴らしいと思ったことについて(基本的にみんな素晴らしいと思うのですが)。この研究では、語彙の置換について4つのモデルを比較しています。ベイズ統計で処理した上で、Bayes Factorを推定して、ベストのモデルを選んでいます。選ばれたのは(1)言語ごとに語の入れ替えのペースが異なる、かつ、(2)時期によって語の入れ替えのペースが早くなったり遅くなったりする、というモデルでした。納得がいく結論ですが、それ以上に、実データの分析によって語彙置換の進行に関するモデルを比較検討できる、というのが魅力的です。このように、手法の詳細もかなり丁寧に説明しているので、非常に勉強になりました。日本語史に関心のある方は必読だと思います。
最後に、気になることをひとつ。前回、朝鮮日報がこの発見を強引に、結びつくはずのない韓国語と結びつけていると紹介しましたが、逆に、日本のメディアが、とりあえず朝読毎のWebを見ましたが、この注目の研究を紹介した気配がありません。Webだからでしょうか。自国民の自尊心をくすぐりたいからか、正しくない取り上げ方をするのも問題ですが、もし日本のメディアが逆にそういう研究にあえてスポットを当てないのだとしたら、それも情けなく思います。
当該論文のData Supplementをご覧になりましたか? 2番目の方に元になった単語セットが記載されていました。それを見たら、まじめに取り上げる必要のない論文だと判りますよ。
二人称単数が代表的に駄目な例ですけど、笑うしかないような研究にしか思えないです。
単語セットは眺めた程度です。これらは、論文にあるとおり、古語は時代別国語辞典、方言は平山輝男グループの辞書に収録されてるものなので、このセットがダメだとすれば、日本の国語学、方言学がダメだということになるワケですが...
論文の著者はこの分野の専門家ではなく、独自にリストを作成するのは不可能な業でしょう。ですから、使用した資料の信頼性に結果が依存することは間違いなく、それも弱点の一つだとは言えるかもしれませんね。まあ、現時点で入手できる範囲で最善かな、とは思いますが。
ありがとうございました!