ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

BERT・XLNet・RoBERTaのについて聞いてきたはず・・・

2019-09-10 09:22:17 | Weblog
だけど、いまいち理解していない。理解していないものの
9月9日に
BERT・XLNet・RoBERTaの論文の解説と簡易ハンズオンを行うセミナー
https://ml-for-experts.connpass.com/event/145179/
を聞いてきたのでメモメモ(途中ちゃんと取れてないけど)




ゼロからつくるDeepLearning2

オートエンコーダー系BERT,Transformer-XLとオートリグレッシブ系XLNet,RoBERTa

1章

・BoWとWord2Vec
 単語が出現したか→カウントする
  問題:スパースになってしまう→形式を変える(scipy すぱーす)

 局所表現と分散表現
  局所表現:単語をIDで表現
  分散表現:いくつかの特徴で表現→パラメータの数が減らせる

 分散表現にすること=エンベディング→座標空間に埋め込む

 Word2Vec(2013):ワードからベクトルにというタスクを指している。

・言語モデルとNLM
 言語モデル:確率過程
  同時確率を計算すると爆発してしまう→回避 ファクタライズ

 NLM:にゅーらるねっとわーくを言語モデルで
  →マルコフ性

・Seq2Seq(2014)


2章
・とらんすふぉーまー
 アテンション:記憶ネットワークとアテンション
 →attention is all you need
 
・XLNet Autoreqressive Pretraining
 NLU:言語理解にフォーカスを変えている

・系列系のモデリング:後ろに戻らない

・Pre-trainingとfine tuning(転移学習)

・GLUE,squad dataset,Race dataset

・BERTの学習方法
 2つある
 Masked LM:単語をマスキング→穴埋めしていく
 Next sentens Prediction(NSP) AとBがつながっている文?

・トランスフォーマー
 固定長

・教師なし学習(unsupervised learning):
Wikipediaなど:Pre-training
  →手作業で教師を与えていなければ、教師なし学習
   (強化学習が教師なしになるのと同じ)
   
・教師あり学習:fine tuning:評価用

・BART Large

ソースをみる
・logit,lossと出てきたら、これ本体っぽい。
・modeling.BertModelとかきたら、importしてる

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする