gooブログはじめました!

どうする? DXデータ基盤。

○ リクルートがデータマート開発を最大12倍高速に、秘訣はあの開発手法の取り込み。

DX(デジタル変革)の推進には、AI(人工知能)やBI(ビジネスインテリジェンス)ツールを用いたデータ活用が欠かせない。その際に重要なのが、蓄積したデータを分析しやすい形に変換して提供するデータ基盤の構築である。先行企業では、オブジェクトストレージに蓄積したデータを、データウエアハウス(DWH)やAIシステムといった基盤につなぎ、着々とDX推進に向けた取り組みを進めている。

リクルートは2022年4月、経営資源としてのデータの価値を引き出し、意思決定の速度と精度を向上させる組織「Data Driven Decision Making(D3M)部」を新設した。現在、同部署には十数人の「アナリティクスエンジニア」が在籍し、リクルート内にある6つの事業領域で蓄積したデータに対して、メトリクスの設計・定義、データマート・集計フローの構築、ダッシュボード・モニタリング環境の構築、データ品質の担保などを実施している。

リクルートが構築するデータ基盤のデータフロー図。ピンク色の部分がD3M部の業務
画1、リクルートが構築するデータ基盤のデータフロー図。ピンク色の部分がD3M部の業務。

アナリティクスエンジニアはリクルートが22年6月から採用を始めた職種である。事業領域を横断して、分析にすぐ使えるクリーンなデータ環境を提供したり、ソフトウエアの開発手法を活用して生産性の高いデータ管理を実現したりする。データアナリストとデータエンジニアの架け橋となる存在だという。

事業領域ごとにデータレイクを保持。

リクルートは事業領域ごとにデータレイクを保持している。データストアも事業領域ごとに異なるが、主に米Google(グーグル)のGoogle Cloud上に構築しているケースが多いという。リクルートのプロダクト統括本部プロダクト開発統括室データ推進室データテクノロジーユニットD3M部アナリティクスエンジニアリンググループの山邉哲生グループマネージャーは「ある事業領域では約150のデータマートがあり、日次で連携しているデータは約800ギガバイトに及ぶ」と話す。

D3Mの部署には膨大なデータを分析する方法や分析のためのデータマート作成の依頼が日々届く。例えば新しいサービスが立ち上がった際、事業領域のデータレイクからデータを抽出して分析に利用できる形に整形するといった具合だ。

だが、データマートの構築は一朝一夕で完了するものではない。似たようなデータマートを構築した経験があれば、時間をかけずに提供できる。一方、新しいサービスが立ち上がった際は過去の知見が使えないことが多いため、「数カ月かかることもある」(山邉グループマネージャー)という。

また変化が速いビジネス環境において、「1~2年後も同じデータマートやダッシュボードを利用できるとは限らない」(山邉グループマネージャー)。構築当初は頻繁に使われるが、ステークホルダーが変わったり、ビジネス環境が変化したりすると使われなくなるという。常にデータマートやダッシュボードをアップデートし、使わないデータマートは廃棄しなければならない。しかもアナリティクスエンジニアのリソースは限られる。

データポータルを構築して効率化。

こうした課題を解決するため、リクルートはデータマネジメントの効率化に力を入れている。具体的には、データポータルの構築やCI/CD(継続的インテグレーション/継続的デプロイメント)による自動化の導入である。ソフトウエア開発の手法を導入し、効率よくデータを管理し、素早くデータマートなどを提供する。

データポータルのイメージ
画2、データポータルのイメージ。

山邉グループマネージャーは「データポータルは各事業領域でデータを使う際、まず参照する説明書のようなものだ」と話す。GitHub PagesとSphinxで構築したデータポータルには、プロダクトごとの指標(利用者数など)や論理定義(指標の内容)、物理定義(データを取得するためのSQL)などが表示される。これでD3Mの部署に依頼せずに、利用者側でもSQLを記述して目的のデータを得られる。

データポータルのWebサイトはGitHub Actionsと連携している。内容に変更があると、管理者がレビューして承認することで反映される。管理者がきちんと確認するため、持続的なデータガバナンスをかけられる。またGitHub ActionsといったCI/CDサービスの導入により、結果をレビューする時間が30分から10分以下に短縮できたという。

さらにSQLをオープンソースソフトウエア(OSS)のdbt-coreなどで管理。これで一元化したデータ(指標値)を得られるようになった。こうした取り組みの結果、リクルートではデータマート開発の生産性が向上した。ある事業領域では、データマートのリリース頻度は12倍に向上。提供までのリードタイムが以前は1~3カ月だったのが、1~2週間に短縮したという。


ランキングに参加中。クリックして応援お願いします!

名前:
コメント:

※文字化け等の原因になりますので顔文字の投稿はお控えください。

コメント利用規約に同意の上コメント投稿を行ってください。

 

  • Xでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

最近の「〝 たぬき の 「 スマホ ・ パソコン 」 ワールド 〟」カテゴリーもっと見る

最近の記事
バックナンバー
人気記事