ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

「自然言語処理に基づく商品情報の整理および構造化」を聞いてきた!

2014-03-26 16:44:53 | Weblog
いま、TOPSEシンポジウムで、

「自然言語処理に基づく商品情報の整理および構造化」という題で

楽天技術研究所の人のお話を聞いてきたので、
メモメモ





楽天と楽天技術研究所の紹介
自然言語処理とは
楽天における自然言語処理活用事例
  商品情報の構造化
  レビューからの商品の使用感の抽出
  その他
まとめ

楽天 会社概要
・最近、外国からも(3人に1人)
・1997→2014 日本を元気に
・画鋲、ワイン、牛肉、甲冑などまで売っている
・楽天グループのサービス
・楽天グループ(海外)世界13カ国
・楽天技術研究所
  →技術戦略の中核を担うR&D部門
 3つの研究分野
  分散
  データマイニング・自然言語
  マルチメディア・UI
 →分野をまたいでコラボ
 事例
  ROMA(分散キーバリューストア)
   全部Ruby:プラグイン容易
  LeoFS(Webに特化した分散ファイルシステム)
  AR Hitoke(ネット上の人気を)
  物体認識
  ユーザー行動ログ解析に基づく商品かてごりの絞込み

ゴール:昔ながらのショップオーナー

技術
・セマンティック
・ビッグデータ
・自然言語処理
・AI

■自然言語処理(NLP)とは
・人工言語(プログラミング言語など)と区別するため
  →ふつうしゃべっていることば
・人工知能の一分野
・自然言語の機械による理解を目指す
  テキスト内の情報の構造化
    誰・いつ・どこで・何を・どうした
・あいまい性と同義語の問題が常に付きまとう
  黒い瞳の大きな女の子
    くろい、ひとみのおおきな、おんなのこ
    くろいひとみの、おおきな、おんなのこ
  今日NIIで発表します
    今日NIIでプレゼンします
    今日、国立情報研究所でトークします
・幅広いトピック
  研究トピック NLP2014 CFP
   →かなり多岐
・実世界の多くのアプリケーションで使われている
  機械翻訳
  対話システム
  テキストマイニング(カゼミル)
  特集ページの生成
・自然言語処理の流れ
  文分解
  形態素解析
  構文解析
  格解析
  照応省略解析

文分割
・テキストを文単位に分割
  句点や記号が手がかり
   →モーニング娘。を除く
・ブロックタグ
・共通のルールない

形態素解析
・入力文を単語単位に分割し、品詞情報を付与する処理
  mecab,juman

構文解析
・文中の文節区切りを認識
・文節間の修飾関係を同定

格解析(意味解析に入ってくる)
・文中の格構造を認識する処理
  京大格フレーム
   http://reed.kuee.kyoto-u.ac.jp/cf-search/

照応省略解析
・代名詞、指示詞などの照応詞が何を指しているのか特定する処理
・用言の省略された主語や目的語を補う処理

精度
・文分割
・形態素 98%
・構文解析90%
・格解析 80~90
・照応省略40%

■楽天による

<<商品情報の構造化>>

楽天市場にある商品データの特徴
・ページは店舗様々

機械学習
・教師データ:いっぱい用意
・今回:タグつきコーパス→高コスト

教師なし学習に基づく商品情報抽出
・半構造化データ
  →知識ベース構築
・自動アノテーション
・機械学習による属性抽出ルール
・ルールの適用

デモ automatic cataloging engine

<<レビューから商品の使用感>>
・触れたり、触ったりできない
  →利用できない1つ
 使用感に関する記述を取り出す
 オノマトペを利用

 R-touch

<<その他の言語処理タスク>>

・語分類商品の検知
  強制語知識体系を構築
  強制語を利用して正しいジャンルに

・英作文支援ツール
 phloat
  
・その他
 形態素解析き
 キーフレーズ抽出
 商品知識の自動獲得
 商品の同一性判定
  多言語化が重要

■まとめ
・楽天技術研究所でとりくんでいる自然言語
・言語処理100本ノック
http://www.cl.ecei.tohoku.ac.jp/index.php?NLP%20100%20Drill%20Exercises

■Q&A
形態素解析
・オンラインで機械学習
分野をまたげる工夫
・ともだちだから
オノマトペ:いいのとわるいのがあるのでは?
・いいのとわるいの半々くらい?
・同じオノマトペが分野によって違うことも
格構造
・フィルモア、格助詞ベース
・格解析まで入れているアプリはすくない?
機械学習:失敗した場合
・ルールベースに比べ、機械学習の失敗はわかりにくい
・人手ではじく場合、クレームきたら削除する場合
オノマトペ:日本語重要?
・オノマトペは日本語に特徴的
・辞書は使えるかも
古語
・今は新聞記事がベース、
・古語を研究している先生もいるが
・一般的には解析せず、できないものはできないで割り切る

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

MVCモデルは、SEとFEで意味が違うらしい

2014-03-26 12:51:27 | Weblog
Software Design2014年4月号、31ページによると、
「MVC」モデルのさしているものが、
SE(昔のシステムエンジニア、最近のサーバーサイドエンジニア)
がさしているものと、
FE(フロントエンドエンジニア)がさしているものが、違うらしい。

SEがさしているMVCは、こういうものであった。

つまり、ViewとModelを分離するものとして、Controllerがある
というパターンで、Java,PHPのフレームワークは、こうなっている。

ところが、最近のJavascriptのフレームワーク(BackboneJSなど)は、
こんなかんじらしい。

Controllerは、Modelに変更を通達する。
ModelからViewに直接データが送られるという形

たぶん、FEは、こっちしか扱わないから、

MVCといった場合、今後、SEとFEで、さしているものが
違ってくる可能性があるわけだね。

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Office.comって、フル機能ではない?

2014-03-26 10:52:44 | Officeソフト&VBA
無料でMicrosoftのOfficeソフトが使える

Office.com
http://office.com

だけど、つかってて、遅いというのは、無料だからしかたないとして
置いておいて、そもそも、これって、フル機能ではない?

今、word onlineを使っていて、図形を入れようと思ったら・・・



うん?図形がない??
何か設定するのかなあ?そうすると、出てくるのかなあ?
それとも、もともとフル機能ではなく、図形がないのかなあ・・・

・・・手持ちのWordでやろう・・・
(じゃ、はじめから、そうしろよ!というツッコミがありそうな気が・・・)

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする