日本は、古典籍、古文書、古記録などの過去の資料(史料)を千年以上も大切に受け継いでおり、数億点規模という世界でも稀なほど大量の資料が現存している。日本の歴史・文化の研究や、過去の災害などの自然現象の解明を進めるには、これらの資料をデジタル化・オープン化するとともに、その内容を読み解く必要がある。ところが、現代のほとんどの日本人は「くずし字」で書かれた過去の資料を読めなくなっており、大量のくずし字をどう読み解くかが重要な課題となっている。
そこでこの社会課題の解決にAI(人工知能)を活用する方法を探るため、この7月から10月にかけて、世界最大規模の機械学習コンペプラットフォームである「Kaggle(カグル)」で、「くずし字認識:千年に及ぶ日本の文字文化への扉を開く」と題する全世界的なコンペを開催する。コンペを通して画期的なくずし字認識手法の開発が進むだけでなく、くずし字データセットを通して日本文化への関心が世界的に高まる効果も期待できる。
本コンペは、情報・システム研究機構 データサイエンス共同利用基盤施設 人文学オープンデータ共同利用センター(CODH)ならびに同機構 国立情報学研究所(NII)、人間文化研究機構国文学研究資料館(国文研)が主催する。
現在、くずし字をきちんと読める人は全国で数千人程度と推定されており、これらの人々だけで膨大な資料を翻刻するには限界がある。この課題を解決するために、2つの方向で研究が進められてきた。第一が市民参加型翻刻システムの開発である。専門家と市民が共に参加する翻刻システムを使い、市民がくずし字を翻刻しながらスキルを向上させることで、くずし字を読める人々の数をもっと増やすことを目指す。第二がコンピュータ(機械)の活用である。機械が文字を読み取る光学的文字認識(OCR)の活用による翻刻の自動化には、これまでいくつもの研究グループが取り組んできた。しかし、くずし字は文字の種類が多く、連続した手書き文字の分割が難しく、レイアウトが多様で、本ごとにスタイルが異なるため、実用レベルのくずし字OCRの研究開発は難航している。
一方、画像解析の分野における深層学習(機械学習)の活用を中心とした、近年のAIの飛躍的な発展を取り入れることで、新方式のくずし字OCRに向けた研究開発が進む可能性も高まっている。そこでくずし字OCRの性能向上に向けたアイデアをオープンに募集するため、CODH、NII、国文研は、この7月から10月にかけて、世界最大規模の機械学習コンペプラットフォームである「Kaggle(カグル)」で、「くずし字認識:千年に及ぶ日本の文字文化への扉を開く(Kuzushiji Character Recognition: Opening the Door to A Thousand Years of Japanese Literate Culture)」と題するコンペを開催する。なお、詳細な情報はコンペが開始される7月中旬に公開され、参加者はその3カ月後に設定される〆切日までにアルゴリズムを提出するというスケジュールが予定されている。
◆用語説明
〇くずし字の翻刻
くずし字の翻刻とは、くずし字を人間が読み、くずし字に対応する現代日本語の文字を入力する作業のこと。
〇みんなで翻刻
「みんなで翻刻」は、国立歴史民俗博物館の橋本雄太助教を中心に、京都大学古地震研究会や東京大学地震研究所などが協力して構築を進める、市民参加型翻刻システムのこと。CODHも各種の共同研究で協力体制にある。
〇Kaggle
Kaggleは、米国に本拠地を置くKaggle社(Google傘下)が運営する、世界最大規模の機械学習コンペティションプラットフォーム。Kaggleのコンペティションでは、(1)企業や研究者が解決したい課題を出題し関連データを提供、(2)世界中のAI研究者・技術者がその課題を解決するアルゴリズム(計算手法)を提出、(3) 提出されたアルゴリズムの性能をランキングして上位入賞者を決定、(4) 上位入賞者はコンペの成果を出題者に提供し賞金を獲得、という流れで研究開発をオープンに進める。
〇Kaggleコンペに関する詳細情報については、下記のサイトで提供する。
本コンペのページ(https://www.kaggle.com/c/kuzushiji-recognition)※コンペ開始日に公開予定
CODHのウェブサイト(http://codh.rois.ac.jp/competition/kaggle/)
今日の天気は小雨~曇り、午後から薄曇り。
散歩道沿いに比較的広い空地がある。その空地で、”オオキンケイギク”が咲いている。花はキバナコスモスに似るが、赤みはなく鮮やかな黄色で、とても綺麗なキク科の花だ。花の盛りは終わった様で、沢山の種が付いている。数年前から花が咲いており、今年も咲いた。
この”オオキンケイギク”は、外来種で野外に定着して問題となっている。現在は特定外来生物に指定され栽培が禁止されている(2006年)。それは、繁殖力が強く、特に荒地に強いことから、河原で繁茂し、在来の植物に対して大きな影響を与えるからとの事。なるほど、花後の種を見るととても大きく、種子生産量は1平方メートルあたり数千粒と言われる程だ。
”オオキンケイギク”は大きなキンケイギク(金鶏菊)の意味。名(キンケイギク)の由来には諸説があり、花色を金鶏(黄色の鳥)に見立てた説、花の形が鶏冠(とさか)で花色が金色に輝いている説などがある。
オオキンケイギク(大金鶏菊)
キク科ハルシャギク属
多年草
原産地は北アメリカ
1880年代に鑑賞用に導入された帰化植物
開花時期は5月~7月
花径は6cm前後
◆特定外来種
特定外来生物とは、外来生物法により、生態系などに被害を及ぼすものとして指定された生物。
外来生物法では、特定外来生物に指定された生物を飼育・栽培・保管・運搬・販売・譲渡・輸入・野外に放つことなどを原則禁止している。これらの項目に違反した場合、最高で個人の場合懲役3年以下もしくは300万円以下の罰金、法人の場合1億円以下の罰金が科せられる。
そこでこの社会課題の解決にAI(人工知能)を活用する方法を探るため、この7月から10月にかけて、世界最大規模の機械学習コンペプラットフォームである「Kaggle(カグル)」で、「くずし字認識:千年に及ぶ日本の文字文化への扉を開く」と題する全世界的なコンペを開催する。コンペを通して画期的なくずし字認識手法の開発が進むだけでなく、くずし字データセットを通して日本文化への関心が世界的に高まる効果も期待できる。
本コンペは、情報・システム研究機構 データサイエンス共同利用基盤施設 人文学オープンデータ共同利用センター(CODH)ならびに同機構 国立情報学研究所(NII)、人間文化研究機構国文学研究資料館(国文研)が主催する。
現在、くずし字をきちんと読める人は全国で数千人程度と推定されており、これらの人々だけで膨大な資料を翻刻するには限界がある。この課題を解決するために、2つの方向で研究が進められてきた。第一が市民参加型翻刻システムの開発である。専門家と市民が共に参加する翻刻システムを使い、市民がくずし字を翻刻しながらスキルを向上させることで、くずし字を読める人々の数をもっと増やすことを目指す。第二がコンピュータ(機械)の活用である。機械が文字を読み取る光学的文字認識(OCR)の活用による翻刻の自動化には、これまでいくつもの研究グループが取り組んできた。しかし、くずし字は文字の種類が多く、連続した手書き文字の分割が難しく、レイアウトが多様で、本ごとにスタイルが異なるため、実用レベルのくずし字OCRの研究開発は難航している。
一方、画像解析の分野における深層学習(機械学習)の活用を中心とした、近年のAIの飛躍的な発展を取り入れることで、新方式のくずし字OCRに向けた研究開発が進む可能性も高まっている。そこでくずし字OCRの性能向上に向けたアイデアをオープンに募集するため、CODH、NII、国文研は、この7月から10月にかけて、世界最大規模の機械学習コンペプラットフォームである「Kaggle(カグル)」で、「くずし字認識:千年に及ぶ日本の文字文化への扉を開く(Kuzushiji Character Recognition: Opening the Door to A Thousand Years of Japanese Literate Culture)」と題するコンペを開催する。なお、詳細な情報はコンペが開始される7月中旬に公開され、参加者はその3カ月後に設定される〆切日までにアルゴリズムを提出するというスケジュールが予定されている。
◆用語説明
〇くずし字の翻刻
くずし字の翻刻とは、くずし字を人間が読み、くずし字に対応する現代日本語の文字を入力する作業のこと。
〇みんなで翻刻
「みんなで翻刻」は、国立歴史民俗博物館の橋本雄太助教を中心に、京都大学古地震研究会や東京大学地震研究所などが協力して構築を進める、市民参加型翻刻システムのこと。CODHも各種の共同研究で協力体制にある。
〇Kaggle
Kaggleは、米国に本拠地を置くKaggle社(Google傘下)が運営する、世界最大規模の機械学習コンペティションプラットフォーム。Kaggleのコンペティションでは、(1)企業や研究者が解決したい課題を出題し関連データを提供、(2)世界中のAI研究者・技術者がその課題を解決するアルゴリズム(計算手法)を提出、(3) 提出されたアルゴリズムの性能をランキングして上位入賞者を決定、(4) 上位入賞者はコンペの成果を出題者に提供し賞金を獲得、という流れで研究開発をオープンに進める。
〇Kaggleコンペに関する詳細情報については、下記のサイトで提供する。
本コンペのページ(https://www.kaggle.com/c/kuzushiji-recognition)※コンペ開始日に公開予定
CODHのウェブサイト(http://codh.rois.ac.jp/competition/kaggle/)
今日の天気は小雨~曇り、午後から薄曇り。
散歩道沿いに比較的広い空地がある。その空地で、”オオキンケイギク”が咲いている。花はキバナコスモスに似るが、赤みはなく鮮やかな黄色で、とても綺麗なキク科の花だ。花の盛りは終わった様で、沢山の種が付いている。数年前から花が咲いており、今年も咲いた。
この”オオキンケイギク”は、外来種で野外に定着して問題となっている。現在は特定外来生物に指定され栽培が禁止されている(2006年)。それは、繁殖力が強く、特に荒地に強いことから、河原で繁茂し、在来の植物に対して大きな影響を与えるからとの事。なるほど、花後の種を見るととても大きく、種子生産量は1平方メートルあたり数千粒と言われる程だ。
”オオキンケイギク”は大きなキンケイギク(金鶏菊)の意味。名(キンケイギク)の由来には諸説があり、花色を金鶏(黄色の鳥)に見立てた説、花の形が鶏冠(とさか)で花色が金色に輝いている説などがある。
オオキンケイギク(大金鶏菊)
キク科ハルシャギク属
多年草
原産地は北アメリカ
1880年代に鑑賞用に導入された帰化植物
開花時期は5月~7月
花径は6cm前後
◆特定外来種
特定外来生物とは、外来生物法により、生態系などに被害を及ぼすものとして指定された生物。
外来生物法では、特定外来生物に指定された生物を飼育・栽培・保管・運搬・販売・譲渡・輸入・野外に放つことなどを原則禁止している。これらの項目に違反した場合、最高で個人の場合懲役3年以下もしくは300万円以下の罰金、法人の場合1億円以下の罰金が科せられる。
※コメント投稿者のブログIDはブログ作成者のみに通知されます