だけど、いまいち理解していない。理解していないものの
9月9日に
BERT・XLNet・RoBERTaの論文の解説と簡易ハンズオンを行うセミナー
https://ml-for-experts.connpass.com/event/145179/
を聞いてきたのでメモメモ(途中ちゃんと取れてないけど)
ゼロからつくるDeepLearning2
オートエンコーダー系BERT,Transformer-XLとオートリグレッシブ系XLNet,RoBERTa
1章
・BoWとWord2Vec
単語が出現したか→カウントする
問題:スパースになってしまう→形式を変える(scipy すぱーす)
局所表現と分散表現
局所表現:単語をIDで表現
分散表現:いくつかの特徴で表現→パラメータの数が減らせる
分散表現にすること=エンベディング→座標空間に埋め込む
Word2Vec(2013):ワードからベクトルにというタスクを指している。
・言語モデルとNLM
言語モデル:確率過程
同時確率を計算すると爆発してしまう→回避 ファクタライズ
NLM:にゅーらるねっとわーくを言語モデルで
→マルコフ性
・Seq2Seq(2014)
2章
・とらんすふぉーまー
アテンション:記憶ネットワークとアテンション
→attention is all you need
・XLNet Autoreqressive Pretraining
NLU:言語理解にフォーカスを変えている
・系列系のモデリング:後ろに戻らない
・Pre-trainingとfine tuning(転移学習)
・GLUE,squad dataset,Race dataset
・BERTの学習方法
2つある
Masked LM:単語をマスキング→穴埋めしていく
Next sentens Prediction(NSP) AとBがつながっている文?
・トランスフォーマー
固定長
・教師なし学習(unsupervised learning):
Wikipediaなど:Pre-training
→手作業で教師を与えていなければ、教師なし学習
(強化学習が教師なしになるのと同じ)
・教師あり学習:fine tuning:評価用
・BART Large
ソースをみる
・logit,lossと出てきたら、これ本体っぽい。
・modeling.BertModelとかきたら、importしてる