いま、TOPSEシンポジウムで、
「自然言語処理に基づく商品情報の整理および構造化」という題で
楽天技術研究所の人のお話を聞いてきたので、
メモメモ
楽天と楽天技術研究所の紹介
自然言語処理とは
楽天における自然言語処理活用事例
商品情報の構造化
レビューからの商品の使用感の抽出
その他
まとめ
楽天 会社概要
・最近、外国からも(3人に1人)
・1997→2014 日本を元気に
・画鋲、ワイン、牛肉、甲冑などまで売っている
・楽天グループのサービス
・楽天グループ(海外)世界13カ国
・楽天技術研究所
→技術戦略の中核を担うR&D部門
3つの研究分野
分散
データマイニング・自然言語
マルチメディア・UI
→分野をまたいでコラボ
事例
ROMA(分散キーバリューストア)
全部Ruby:プラグイン容易
LeoFS(Webに特化した分散ファイルシステム)
AR Hitoke(ネット上の人気を)
物体認識
ユーザー行動ログ解析に基づく商品かてごりの絞込み
ゴール:昔ながらのショップオーナー
技術
・セマンティック
・ビッグデータ
・自然言語処理
・AI
■自然言語処理(NLP)とは
・人工言語(プログラミング言語など)と区別するため
→ふつうしゃべっていることば
・人工知能の一分野
・自然言語の機械による理解を目指す
テキスト内の情報の構造化
誰・いつ・どこで・何を・どうした
・あいまい性と同義語の問題が常に付きまとう
黒い瞳の大きな女の子
くろい、ひとみのおおきな、おんなのこ
くろいひとみの、おおきな、おんなのこ
今日NIIで発表します
今日NIIでプレゼンします
今日、国立情報研究所でトークします
・幅広いトピック
研究トピック NLP2014 CFP
→かなり多岐
・実世界の多くのアプリケーションで使われている
機械翻訳
対話システム
テキストマイニング(カゼミル)
特集ページの生成
・自然言語処理の流れ
文分解
形態素解析
構文解析
格解析
照応省略解析
文分割
・テキストを文単位に分割
句点や記号が手がかり
→モーニング娘。を除く
・ブロックタグ
・共通のルールない
形態素解析
・入力文を単語単位に分割し、品詞情報を付与する処理
mecab,juman
構文解析
・文中の文節区切りを認識
・文節間の修飾関係を同定
格解析(意味解析に入ってくる)
・文中の格構造を認識する処理
京大格フレーム
http://reed.kuee.kyoto-u.ac.jp/cf-search/
照応省略解析
・代名詞、指示詞などの照応詞が何を指しているのか特定する処理
・用言の省略された主語や目的語を補う処理
精度
・文分割
・形態素 98%
・構文解析90%
・格解析 80~90
・照応省略40%
■楽天による
<<商品情報の構造化>>
楽天市場にある商品データの特徴
・ページは店舗様々
機械学習
・教師データ:いっぱい用意
・今回:タグつきコーパス→高コスト
教師なし学習に基づく商品情報抽出
・半構造化データ
→知識ベース構築
・自動アノテーション
・機械学習による属性抽出ルール
・ルールの適用
デモ automatic cataloging engine
<<レビューから商品の使用感>>
・触れたり、触ったりできない
→利用できない1つ
使用感に関する記述を取り出す
オノマトペを利用
R-touch
<<その他の言語処理タスク>>
・語分類商品の検知
強制語知識体系を構築
強制語を利用して正しいジャンルに
・英作文支援ツール
phloat
・その他
形態素解析き
キーフレーズ抽出
商品知識の自動獲得
商品の同一性判定
多言語化が重要
■まとめ
・楽天技術研究所でとりくんでいる自然言語
・言語処理100本ノック
http://www.cl.ecei.tohoku.ac.jp/index.php?NLP%20100%20Drill%20Exercises
■Q&A
形態素解析
・オンラインで機械学習
分野をまたげる工夫
・ともだちだから
オノマトペ:いいのとわるいのがあるのでは?
・いいのとわるいの半々くらい?
・同じオノマトペが分野によって違うことも
格構造
・フィルモア、格助詞ベース
・格解析まで入れているアプリはすくない?
機械学習:失敗した場合
・ルールベースに比べ、機械学習の失敗はわかりにくい
・人手ではじく場合、クレームきたら削除する場合
オノマトペ:日本語重要?
・オノマトペは日本語に特徴的
・辞書は使えるかも
古語
・今は新聞記事がベース、
・古語を研究している先生もいるが
・一般的には解析せず、できないものはできないで割り切る
「自然言語処理に基づく商品情報の整理および構造化」という題で
楽天技術研究所の人のお話を聞いてきたので、
メモメモ
楽天と楽天技術研究所の紹介
自然言語処理とは
楽天における自然言語処理活用事例
商品情報の構造化
レビューからの商品の使用感の抽出
その他
まとめ
楽天 会社概要
・最近、外国からも(3人に1人)
・1997→2014 日本を元気に
・画鋲、ワイン、牛肉、甲冑などまで売っている
・楽天グループのサービス
・楽天グループ(海外)世界13カ国
・楽天技術研究所
→技術戦略の中核を担うR&D部門
3つの研究分野
分散
データマイニング・自然言語
マルチメディア・UI
→分野をまたいでコラボ
事例
ROMA(分散キーバリューストア)
全部Ruby:プラグイン容易
LeoFS(Webに特化した分散ファイルシステム)
AR Hitoke(ネット上の人気を)
物体認識
ユーザー行動ログ解析に基づく商品かてごりの絞込み
ゴール:昔ながらのショップオーナー
技術
・セマンティック
・ビッグデータ
・自然言語処理
・AI
■自然言語処理(NLP)とは
・人工言語(プログラミング言語など)と区別するため
→ふつうしゃべっていることば
・人工知能の一分野
・自然言語の機械による理解を目指す
テキスト内の情報の構造化
誰・いつ・どこで・何を・どうした
・あいまい性と同義語の問題が常に付きまとう
黒い瞳の大きな女の子
くろい、ひとみのおおきな、おんなのこ
くろいひとみの、おおきな、おんなのこ
今日NIIで発表します
今日NIIでプレゼンします
今日、国立情報研究所でトークします
・幅広いトピック
研究トピック NLP2014 CFP
→かなり多岐
・実世界の多くのアプリケーションで使われている
機械翻訳
対話システム
テキストマイニング(カゼミル)
特集ページの生成
・自然言語処理の流れ
文分解
形態素解析
構文解析
格解析
照応省略解析
文分割
・テキストを文単位に分割
句点や記号が手がかり
→モーニング娘。を除く
・ブロックタグ
・共通のルールない
形態素解析
・入力文を単語単位に分割し、品詞情報を付与する処理
mecab,juman
構文解析
・文中の文節区切りを認識
・文節間の修飾関係を同定
格解析(意味解析に入ってくる)
・文中の格構造を認識する処理
京大格フレーム
http://reed.kuee.kyoto-u.ac.jp/cf-search/
照応省略解析
・代名詞、指示詞などの照応詞が何を指しているのか特定する処理
・用言の省略された主語や目的語を補う処理
精度
・文分割
・形態素 98%
・構文解析90%
・格解析 80~90
・照応省略40%
■楽天による
<<商品情報の構造化>>
楽天市場にある商品データの特徴
・ページは店舗様々
機械学習
・教師データ:いっぱい用意
・今回:タグつきコーパス→高コスト
教師なし学習に基づく商品情報抽出
・半構造化データ
→知識ベース構築
・自動アノテーション
・機械学習による属性抽出ルール
・ルールの適用
デモ automatic cataloging engine
<<レビューから商品の使用感>>
・触れたり、触ったりできない
→利用できない1つ
使用感に関する記述を取り出す
オノマトペを利用
R-touch
<<その他の言語処理タスク>>
・語分類商品の検知
強制語知識体系を構築
強制語を利用して正しいジャンルに
・英作文支援ツール
phloat
・その他
形態素解析き
キーフレーズ抽出
商品知識の自動獲得
商品の同一性判定
多言語化が重要
■まとめ
・楽天技術研究所でとりくんでいる自然言語
・言語処理100本ノック
http://www.cl.ecei.tohoku.ac.jp/index.php?NLP%20100%20Drill%20Exercises
■Q&A
形態素解析
・オンラインで機械学習
分野をまたげる工夫
・ともだちだから
オノマトペ:いいのとわるいのがあるのでは?
・いいのとわるいの半々くらい?
・同じオノマトペが分野によって違うことも
格構造
・フィルモア、格助詞ベース
・格解析まで入れているアプリはすくない?
機械学習:失敗した場合
・ルールベースに比べ、機械学習の失敗はわかりにくい
・人手ではじく場合、クレームきたら削除する場合
オノマトペ:日本語重要?
・オノマトペは日本語に特徴的
・辞書は使えるかも
古語
・今は新聞記事がベース、
・古語を研究している先生もいるが
・一般的には解析せず、できないものはできないで割り切る