ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

グラフDBは文章をどうやって理解するのか聞いてきた!

2019-08-28 08:18:28 | Weblog
8月24日にODCに行ってきて

グラフDBは文章をどうやって理解するか?

を聞いてきた!ので、その内容をメモメモ




Graph-Powerd Translation Model

・アンケート グラフDBを
 聞いたことある人 ある程度
 使ったことある人 0
→まずいですね・・

・データから知恵へ
 データ
 インフォメーション→RDBはこのへん
 ナレッジ(知識)
 インサイト(洞察)
 ウィズダム(知恵)

・アジェンダ
 自己紹介
 文章構造

・自己紹介
 ぽーどる てくにっく
 コーヒーの豆のDB作っている

・文章構造
 SVO、SOV
 →よのなかには2種類ある
 SVO 英語、中国語(42%)
 SOV 日本語、韓国語(45%)
 →たしたら100じゃない:これ以外の文法もあるということ

 文字
  中国:繁体字、簡体字
  日本語、かんじ、かな、えいご

 漢字コード
  むかしはSJIS、いまはUTF-8
   →CSVにはSJIS残っている

 常用漢字
   1946年→1981→2010年2136文字(SJIS以外の字も)

 Google翻訳
   2006年まで SMT
   2016年 ニューラルマシントランスレーション(NMT)
 それなりに翻訳できるが、まったく意味が違うことがある
  →コンピューターはどうやって考えますか

・Graph Database
 3つ
  ノード:レコード
  リレーションシップ
  プロパティ:各項目
 →パターンを検索しに行く

・Neo4J
  さいふぁー、ねおはマトリックスの中に出てくる
  コミュニティ版はフリー
  デスクトップ版ある
  Java

 ポケモンの進化をグラフDBで表現

・テキストグラフ
 日本語:
   形態素解析処理がいる
   係り受け分析を行う
   動詞もノードにしてしまう

・どうやって理解するか
  Neo4Jはスキーマ定義がない
  文章を入れる
  ケーキの知識を入れる
  文章と知識をつなぐ
  質問を入れる

・翻訳
 英語の例文を作成する
  GQL(ぐらふくえりーらんげーじ)
 意味→接続
 日本語を作る
→やくすとき、どこにかかっているのか、グラフにすると一目瞭然

ナレッジベース
 ConceptNet
 JSON FORMAT
   Linked Open Data API

仕事の手順をDBに入れられる

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする