ビッグデータの人気イベントCloudera World Tokyo 2017に行ってきた
はじめまして、NHNテコラス データサイエンスチームのtocci3です。
音楽(クラシック、チェロ、HR/HM)と健康関連(筋トレ、糖質制限)と開発全般と機械学習・ビッグデータ界隈に興味があります。
先日行ってきた、ビッグデータの人気イベント Cloudera World Tokyo 2017 についての参加レポートです。
内容が多いため、基本的に参加したセッションの箇条書きのメモと、その他スライドとなります。
雰囲気を感じ取り、興味がある公開資料に目を通して頂ければと思います。
DataScience Advent Calendar とDATAHOTEL Tech Blog、単独では初投稿になります。よろしくお願いします。
Cloudera World Tokyo 2017|Connecting the world with data and analytics
http://www.clouderaworldtokyo.com/
日時: 11月7日(火)
場所: ANAインターコンチネンタルホテル東京
基調講演
ご挨拶
Cloudera 株式会社 代表取締役
中村 共喜氏
- 前日に就任(!!)
- 分析と機械学習のプラットフォームを提供
[K-1b] 不可能を可能にするデータの力
Cloudera, Inc. CMO
Mick Hollison氏
- Clouderaについて
- Webも完全に日本語化。ぜひフィードバックを
- データエコノミー
- データが新しい原油になっている
- The Econoistに
- データから価値を引き出す-まだ発掘されていない機会
- 意思決定に使用されている構造化データの比率: 50%以下
- 非構造加データは利用率: 1%以下
- 許可を受けていないデータにアクセスしている従業員の比率: 70%以上
- データサイエンティストのデータ特定と準備にかかる時間: 80%
- データによって不可能なことを可能に
- 複雑なデータを明確で実践可能なインサイトに
- カスタマインサイトの取得
- 製品とサービスをコネクト
- データを不正から守る
- 機械学習と分析のプラットフォーム
- 機械学習と分析の「ビッグマック」
- 大企業へのフォーカス
- (KOMATSUのビデオ)
- 従来のアプリケーション
- ひとつのデータタイプ
- 一つの分析機能
- 統合が困難
- ⇒様々な機能とストレージが必要
- Cloudera Enterprise 主要な今年の5つの製品イノベーション
- 機械学習
- Data Science Workbench | Cloudera: エンタープライズのための高速、容易でセキュアなセルフサービスのデータサイエンス
- Fast Forward Labs: 機械学習とAI(人工知能)において業界をリードする応用研究
- kudu: IoTのユースケースにおける高速な分析と機械学習のためのリアルタイムデータベース
- マルチクラウド
- Cloudera Altus: AWSとAzureにおける大規模なデータセット処理のためのマルチクラウドPaaS
- sdx(shared data experience): オンプレミスとクラウド環境において、多機能なデータアプリの、より低コストな開発と、よりセキュアな展開を可能にするパワフルなソフトウェアフレームワーク
- 機械学習
- オープンソースの革新性
- ワールドクラスのパートナーエコシステム
- 社会に還元:熊本城修復への寄付を
[K-1a] エンタープライズにおけるデータサイエンスと機械学習
Cloudera, Inc. CTO
Amr Awadallah氏
- 創業者の一人、CTO
- ClouderaがNY上場しました
- 第6の波
- 自動化の波
- 第1の波:10万年前:知識移転の波(話すこと)
- 第2の波:1万年前:食べ物を作る(農業革命)安定、時間が増える、波は失業も伴う
- 第3の波:3000年前:発見の波(数学、科学)
- 第4の波:300年前:産業革命(ものを作ることの自動化)
- 第5の波:50年前:IT・情報技術の波、コンピューター(計算士)が職を失う
- 第6の波:10年前:意思決定の自動化の波、Clouderaのサポートエンジニアの30%は機械学習で自動化している
- 機械学習の時代
- 画像認識など⇒データの増加
- 演算コストの低下
- 自動化の波
- 新しい製品
- Cloudera Enterprise
- sdx
- 「ビッグデータのスマホ」を目指す
- ADLS(Azure Data Lake Store)
- 機械学習のためのエンタープライズプラットフォーム
- 正確に分類する(「赤い車を運転していたら保険料を上げる」のではなく)
- わらの中から針の一本を見つける
- 予測:予防医学、なにかをしそうなときに見つける
- Clouderaデータサイエンスワークベンチ
- オンデマンド、様々な言語、様々な機能、オープンソース
- Cloudera Enterprise
パネルディスカッション
Cloudera, Inc. CMO Mick Hollison 氏
Cloudera, Inc. CTO Amr Awadallah 氏
Microsoft Corporation Field Marketing Strategy WorldWide Cloud&Enterprise OSS Business Lead Makoto Ishizaka 氏
Talend, Inc. Chief Technical Officer Laurent Bride 氏
- Cloudera Mick氏: 時間が超過しているのでこのパネルディスカッションは短めに。
- Cloudera Amr氏: 「Cloudera」創業時、クラウドサービスを作るのでこの名前に。
「データをクラウドに入れるのがいやだ」というお客様が多かった。クラウドの利用に違和感を少なく。
Director。Cloud PaaSとして。sdx。Azureにも投資。
100%クラウドのお客様はいない。オンプレはレガシーがたくさん。機械学習の例では、1000台を5時間とか。このアジリティはクラウドが有効。ハイブリッド対応で。 - Mick氏: 私もMSにいた。Ishizaka氏にMSの変化について、MLとか分析について訪ねたい。
- MS Ishizaka氏: (英語)MSが初めてこのイベントのキーノートに参加できた。
MLや分析はストラテジーの土台。MLやAIを使ってプロダクトの強化をしている。AI専用のリサーチチームがあり、社員のためにデータプラットフォームを用意している。
Hadoop系にはパートナーが必要だ。ClouderaはMSにとって重要なパートナーだ。 - Mick氏:息子にも、XBoxLiveのクラウドが必要(笑)。
- Ishizaka氏: 先日AzureのイベントでCloudera on Azureの発表があった。
- Mick氏: ClouderaとのパートナシップについてTalendに。
- Talend Bride氏: 柔軟性がお客様には必要。TalendはBigDataが得意。
5年前はMapReduceでした。様々なデータがあり、そのツールを提供しています。ノイズを排除したり、データレイクからデータパイプラインまで。
お客様はインフラに関わりたくなく、データを触りたい。
データストリームスでBeamを使うように開発中。昨年Runnerが使えるように。どこでも使える。Cloudera Altusを使って。 - 感想
- 短縮したためか、ディスカッションというよりそれぞれの発表のような感じでした。
- このあたりから翻訳マイクのノイズが少し気になりました。
- 個人的にBeamに注目しているので、興味深かったです。
[K-1c] スポンサーセッション Altus for Microsoft Azure Enabling New Hybrid Data Analytics Workflows
Microsoft Corporation
Field Marketing Strategy
WorldWide Cloud&Enterprise OSS Business Lead
Makoto Ishizaka 氏
- 千葉県船橋市出身の日本人
- Azure: Cloud for all、Microsortについて
- 差別化、AIなど
- グローバルマーケティング
- デジタルトランスフォーメーションの実現
- フォーチュン500社の90%にMicrosort Cloud利用
- 40%of VM on Azure is Linux
- Azureオープンクラウド 4つのアプローチ: オープンソース使用、インテグレーション、OS化リリース、貢献
- Top Contoributor on GitHub
- Clouderaとの協業
- Cloudera on Azure
- Cloudera Altus
- 事例
- Adecco/KOMATSU/(トップクラスカード会社)
- End To Endのサービス・ソリューションを持っている
- ワシントン州タコマ公立学校、Uber、Mixed Reality
- Make a Difference in the World
- (デジタルトランスフォーメーションについてのビデオ)
[K-1d] スポンサーセッション 日立がめざすIoTデータの活用~ITとOTの連携~
株式会社 日立製作所 システム&サービスビジネス統括本部 OSSソリューションセンタ 担当部長
安井 隆宏 氏
- 「以前はLinuxカーネルの仕事をしていましたが、スーツで失礼します」
- 時代はIoTへ
- 日立のポテンシャル:OT(オペレーション・テクノロジー)、IoT、IT
- 日立のめざす姿
- 製造業の事例
- 品質が重要
- グローバルレベルでの品質確保
- 熟練工の動作のデジタル化
- 動作の違いを検知
- 関節位置情報
- スマートメンテナンス - 送配電事業
- 落雷など、停電からの復旧作業
- ビデオ
- 落雷のシミュレーション
- 発生後の状況監視
- 被害最小化の推薦、指示
- Clouderaとのパートナーシップ
ユーザー様ご登壇セッション
楽天カード株式会社 システム戦略部 執行役員 部長
小林 義法 氏
- メインフレームから今年基幹システムを刷新するプロジェクト
- Java/Spark/Yarnを使用。
- 福岡拠点。課題は要員不足
- Clouderaを選定してよかったこと
- 思った以上に楽だった
- サポートが役に立った
- Olacle Exalogicは非常に設定が面倒だった
- プロジェクト課題発生時のアプローチ
- 育成、トレーニング、日本語もわからないメンバーが1ヶ月で戦力に
- オンデマンドな支援、本番の問題に対応など、夜間は英語だが問題なかった
- 独自の使い方
- 安定稼働、メモリバグはリランで対応
- Sparkは参照系のみで更新系には導入しなかった。更新系はDBで
- Spark専用ノード
- 開発
- 処理速度は2倍以上。遅くなっていたものが速くなった。最大数百倍。
- 1ジョブ5日のペースで開発、1000近いJobを置き換えた
- 今後は、Sparkの実装方法を見直す、リアルタイムの処理、チューニング
デジタルによる取引モデルの変革 ~ 貨幣経済の将来に関する考察
インテック プリンシパル
中川 郁夫 氏
- 取引モデルの変革 取引のデジタル化とは?
- 「大量生産・大量消費(匿名経済)/貨幣経済/what you have」 から
- 「パーソナライズされたサービス(顕名経済)/デジタルクレジット/who you are」 へ
- デジタルクレジット
- デジタルテクノロジーによって、収集・蓄積・分析されうる、顧客に紐づくデータ
- Alipay (Alibaba company)
- MMF、6%の利息
- 次に資産運用のプラットフォームとして
- ⇒一人ひとりの資産と買い物を把握
- Zhima Credit(信用スコア)
- 信用スコアで利用できるサービス
- 傘、レンタル自転車、ホテル予約(スコアが低い人を上書きできる)、ビザ
- サービスの可能性
- 利率、旅行審査、婚活、就職、教育(親の信用スコアで決まる)
- 個人の信用を基盤とする経済モデル
- 従来:信用≒貨幣価値(貨幣価値が高ければ信用が高い)
- 現在は違う(個人や個別の会社ごとの信用スコア)
- who you areが秘める可能性
- IoT/BigData視点で考える「取引のデジタル化」のインパクト
- (参考)Tクラウド研究会:コンソーシアム
- Smart Home Project
- Business Case Project
- 感想
- 印象的だった、同氏の去年のセッションの一部の続編という感じでした。
ランチセッション
満席で入れませんでしたが、資料をあとで見たらとても内容の濃いものでした。
興味のある方はご一読をオススメします。
[L-1] Cloudera in the Cloud
Cloudera 株式会社
Systems Engineering
Senior Systems Engineer
三宅 剛史
[L-2] 機械学習システムのデプロイパターン
Cloudera 株式会社
フィールドデータサイエンティスト
有賀 康顕
セッション
[D-1] 生命保険ビジネスにおけるビッグデータの活用
アクサ生命保険株式会社 インフォメーションテクノロジー シニアデータアナリスト
野田 隆広 氏
- pydata tokyoオーガナイザー
- 生命保険ビジネスに分散処理基盤は必要か?
- データ量:1台に収まらない場合(ストレージ、HDFS、Hbase)
- 処理量:分散処理基盤(Spark, Impara)
- AXA生命の話
- 「必要性はない」(属性でグルーピングしているなら)
- ビッグデータで生命保険ビジネスは変わるのか?
- 通院日数が減っている
- 外来が増えてる
- スマートケア
- お客様中心に
- 変わる。ビッグデータでお客様一人一人を理解
- データを活用するにはどうすればいいのか?
- データ戦略→チャレンジ→アクション→データ/目標
- データマネジメント→組織→インフラ→セキュリティ・コンプライアンス
- 組織づくり:スマートデータチーム(データサイエンス、ビッグデータ)
- アクサ内外、世界、HEC(パリ)の組織と協力
- PyData.Tokyo Meetup #16 やります
- Q&A
- Q:個人データを集めることは保険会社としていいのか?
- A:セキュリティ・コンプライアンス、個人情報に則った形、同意を取って。もともと健康状態を質問している。データを出すかは任意。
[D-2] Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
株式会社CyberZ ForceOperationX事業部 SRE Engineer
茂木 高宏 氏
- 感想
- オンプレミス環境からCloudera Directorを使ってクラウド環境に乗り換えたという話。
- インフラチームが不要になったというのは大きな変化ですね。
[E-3] 先行活用事例から学ぶ、IoT/ビッグデータの始め方
Cloudera セールスマネージャー
瀧久 寛之氏
- 感想
- (Clouderaから見た)いかにIoT/ビッグデータ/分析基盤を作るかという話。
- 非常に面白かったです。これから分析基盤を作る/作りたい部署や会社にはおすすめの内容です。
[B-4] アナリティクスの鍵は!「データクレンジング」と「データプレパレーション」!
株式会社アシスト 東日本 技術本部 情報基盤技術統括部 技術3部 部長
田中 貴之 氏
- 名刺に10年前の似顔絵、「太ったので似てない」
- 株式会社アシストについて
- 創業者:ビル・トッテン、1972〜、買収戦略、6つのソフトウェアカテゴリ
- データクレンジング Sycsort DMX-h の紹介
- Hadoop Spark上で稼働するETLツール
- RPMでインストール
- GUIで開発し、実行環境を選択する
- QlikやTableauのインプットファイルの出力
- Hadoopネイティブの2倍以上の性能
- データプレパレーションプラットフォーム Paxata の紹介
- 準備に全作業の80%
- 職掌のジレンマ:ユーザーにお伺い⇔ユーザーは使いこなせない
- Excelなどによる属人的で非効率なデータ準備作業
- (Paxataデモ)
- ブラウザで扱えるスプレッドシートのような感じ
- 加工できる。”_”で分割したりデータのJoinも可能。Joinの確率を機械学習で出している。
- 裏ではSparkを使ってるがユーザーは意識する必要がない。
- 「ステップ」を記録していて、過去の状態に戻せる。
- ダウンロードしたり、S3に出したりできる
- コーディングスキルが不要
- 共有とガバナンス
- さいごに
- 検討に必要なステップを全て無償で提供/体験セミナー/トライアルキット/総合検証プログラム
- アシストテクニカルフォーラム 2017 11/29 虎ノ門ヒルズフォーラム
- 感想
- アシスト社のHadoop/Spark関連ツールの紹介。
- 「スキルがある人がたくさんいればオープンソースを直接、あまりいないならツールを」というのは確かにそうだなと思いました。
[D-5] Cloudera AltusとAmazon EMRを比較する/Amazon EMR利用者がCloudera Altusを使ってみた感想
[D-5a] Cloudera AltusとAmazon EMRを比較する
クラスメソッド株式会社
小澤 祐也 氏
- ペンネーム:じょんすみす
- 「札幌では先日初雪が」
- classmethodについて
- オープンな発想と高い技術力によりすべての人々の創造的活動に貢献し続ける
- Developers.IO:クラスメソッド社のブログ
- 内容はHadoop、データ分析・統計など
- Cloudera Altus と EMR(Amazon Elastic MapReduce)の違い
- 10/30時点の情報
- Hadoopとしてできること・できないこと
- EMR:ポチポチすればいろいろできる
- Altus:HiveとSparkだけ
- クラスタ起動
- EMR:クラスタの作成はApache Big Top
- Altus:CDH、Cloudera Manager管理
- ジョブの考え方の違い
- EMR:クラスタありき
- Altus:ジョブありき
- AWSではほかのマネージドなサービスとメタストアが共有可能(EMR、Athena、Glue、Redshift Spectrum)
- 実行されたジョブを見る方法
- EMR:実行ログを追うのがつらい
- Altus:Workload Analyticsを使うとログを追うのがつらくない!
[D-5b] EMR利用者がAltusを使ってみた感想
株式会社Gunosy 開発本部広告技術部 マネージャー
加藤 慶一 氏
- 感想
- Gunosy 広告基盤をAmazon EMRからCloudera Altusへの置き換えを検討したという話。
- 直前のセッションと似ていますが、こちらは使うべき/使わないべき条件、不満な点や要望なども細かく示されていました。
その他の資料
参加できなかったセッションの現在公開されているスライドです。
E-1 Apache Kuduを使った分析システムの裏側
Cloudera 株式会社
セールスエンジニア
佐藤 貴彦
D-3 認証/認可が実現する安全で高速分析可能な分析処理基盤
株式会社ドワンゴ
ニコニコ事業統括本部 第二サービス開発本部
Dwango Cloud Service部 数値基盤セクション
木浦 正博 氏
E-4 Clouderaが提供するエンタープライズ向け運用、データ管理ツールの最新情報と使い方
Cloudera 株式会社
川崎 達夫
感想、その他
- ハッシュタグは #cwt2017
- 以前は開発寄りのイベントでしたが、だいぶビジネス寄りになってきました。
- Clouderaが(たぶん)今年から突然「分析と機械学習のプラットフォームです」と言い出した。
- sdx、データサイエンスワークベンチ、DirectorとAltusが気になりました。
- ユーザーの事例や自社サービスの説明のセッションが増えた気がします。
- 「ワンストップでETL~ストア~分析/機械学習まで」というようなブースが多かった。
- Dockerを使ってるところが多かった。
- ランチセッションが埋まっていたり、セッションの間の時間が長くてwifiや充電コーナーがなかったりしたのは少し厳しかったです。
- Cloudera 嶋内さんと少し話せました。
- 「今年初めて完全なスーツで来ました」
- 「最近はもっぱらKuduとImpala。速くて、1箇所にストアすればいいので楽」
- Clouderaブースで九州復興募金をしていて、少しだけ募金できました。
- オライリーブースの、「仕事ではじめる機械学習」の著者サインコーナーが盛況でした!
Cloudera World Tokyoは毎年いろいろと刺激になって興味深く、面白いです。ありがとうございました!
今後もイベントに参加してブログも書いていこうと思います。よろしくお願いします!
参考
- 「Cloudera World Tokyo 2017 #cwt2017 – Togetterまとめ」 https://togetter.com/li/1169452
テックブログ新着情報のほか、AWSやGoogle Cloudに関するお役立ち情報を配信中!
Follow @twitter機械学習、ビッグデータ(Hadoop/Spark)関連のシステム開発やデータ分析などをしています。 音楽(クラシック、チェロ、HR/HM)と健康関連(筋トレ、糖質制限)と開発全般と機械学習・ビッグデータなどに興味があります。
Recommends
こちらもおすすめ
-
TensorFlowとKerasで画像認識する方法
2017.12.6
-
Amazon EC2 F1インスタンスを試してみた!
2017.12.22
-
純粋数学専攻がデータサイエンティストに転身してからの半年間を振り返る
2017.12.19
Special Topics
注目記事はこちら
データ分析入門
これから始めるBigQuery基礎知識
2024.02.28
AWSの料金が 10 %割引になる!
『AWSの請求代行リセールサービス』
2024.07.16