社内エンジニア読書会の進め方ーAI・機械学習チーム編ー

t2sy

コラム

2019.4.4

Topics

進め方
Apache Spark Documentaion 読書会
『Rではじめるデータサイエンス』読書会
『深層学習』読書会
機械学習勉強会
おわりに
おまけ

こんにちは。データサイエンスチームの t2sy です。
この記事では当データサイエンスチームがこれまでに行なってきた社内読書会・勉強会をご紹介します。

これまで行った社内読書会・勉強会は以下4つです。

Apache Spark Documentaion 読書会
『Rではじめるデータサイエンス』読書会
『深層学習』読書会
機械学習勉強会

進め方

各読書会・勉強会の開催間隔は 2-3 週間、開催時間は 60-120 分/回とバラつきがありますが、講師が受講者に解説する形式で講師は参加者の持ち回りである点は共通しています。
発表資料は Jupyter Notebook や R Markdown で準備することが多かったですが、特に形式は定めておらず、数式を書くのが慣れている人は iPad と Apple Pencil で資料を作成することもありました。また、発表資料やスケジュール表は Git で管理し、リマインドや質問のフォローには Slack を活用しました。

Apache Spark Documentaion 読書会

2017/04 ~ 2017/10 にかけて、分散処理基盤である Apache Spark の公式ドキュメントの読書会を行いました。当データサイエンスチームではチーム発足当初からの技術スタックのひとつとして Apache Spark を採用しており、チームメンバーが増えていく中で知識・知見を共有する目的で行いました。内容を改めて振り返ると MLlib を用いた Spark 上での機械学習に重点を置いていることがわかります。

	内容
第1回	Overview
第2回	Programming Guide
第3回	Spark SQL, DataFrames
第4回	MLlib (K-means, Gaussian Mixture Model)
第5回	MLlib (Linear regression, Generalized linear regression)
第6回	MLlib (Random Forests)
第7回	MLlib (Collaborative Filtering)
第8回	MLlib (Power iteration clustering)

『Rではじめるデータサイエンス』読書会

2017/11 ~ 2018/07 にかけて、ggplot2 や dplyr など有名な R パッケージの開発者として知られる Hadley Wickham 氏の著書の日本語訳である『Rではじめるデータサイエンス』(原著名: R for Data Science) の読書会を行いました。予習の段階で各章の練習問題を解き、読書会で講師を中心に解答について議論する形式でした。また、この読書会はエンジニアだけでなく営業や財務担当も参加しました。様々な職種の人が自身の業務に関するデータを手元の PC 上の R 環境やサーバ上の RStudio Server や JupyterHub、あるいは Apache Zeppelin などで手軽にデータ分析を行えるようになることで、社内のデータ利活用の促進に繋がると思います。

	章	内容
第1回	第Ⅰ部第1-2章	データ可視化
第2回	第Ⅰ部第3-4章	データ変換
第3回	第Ⅰ部第5-6章	探索的データ分析
第4回	第Ⅱ部第7-8章	データインポート
第5回	第Ⅱ部 9章	データ整理
第6回	第Ⅱ部第10章	JOIN
第7回	第Ⅱ部第11章	文字列操作
第8回	第Ⅱ部第12章	ファクタ
第9回	第Ⅱ部第13章	日付時刻操作
第10回	第Ⅲ部第14-15章	パイプと関数
第11回	第Ⅲ部第16章	ベクトル
第12回	第Ⅲ部第17章	purrr
第13回	第Ⅳ部第18章	モデルの基本
第14回	第Ⅳ部第19章	モデルの構築
第15回	第Ⅳ部第20章	broom
第16回	第Ⅴ部第22章	ggplot2

『深層学習』読書会

2018/03 ~ 2018/11 にかけて、『深層学習』(原著名: Deep Learning) の読書会を行いました。この本は GAN の発明で知られる Ian Goodfellow 氏やAI/深層学習で大変著名な Yoshua Bengio 氏が著者に名を連ねる著書の日本語訳です。データサイエンティストや機械学習エンジニアに対して知識の幅と深さが求められる中で、深層学習に絞り多少時間をかけて理解を深めることができたのが良い点でした。内容もさることながら参考文献も豊富で一人では読み終えることが難しかったため、読書会をモチベーションにできた点も良かったです。

	章	内容
第1回	第6章	深層順伝播型ネットワーク
第2回	第7章	深層学習のための正則化 (前半)
第3回	第7章	深層学習のための正則化 (後半)
第4回	第8章	深層モデルの訓練のための最適化
第5回	第9章	畳み込みネットワーク
第6回	第10章	系列モデリング:回帰結合型ニューラルネットワークと再帰型ネットワーク
第7回	第11章	実用的な方法論
第8回	第12章	アプリケーション
第9回	第15章	表現学習
第10回	第16章	深層学習のための構造化確率モデル
第11回	第20章	深層生成モデル

機械学習勉強会

2019/01 から開始し現在進行中の勉強会です。これまでの読書会とは異なり、データ分析や機械学習という範囲内で最近学んだ技術や読んだ論文を共有するという趣旨の勉強会です。これまでのテーマをみても強化学習、時系列分析、情報推薦、情報検索と幅広いことがわかります。テーマの範囲を広げたことで、発表者が興味のある分野がわかり、その分野の実務で困ったときに相談しやすくなったと思います。

	内容
第1回	論文紹介: Generation Meets Recommendation: Proposing Novel Items for Groups of Users*
第2回	強化学習 (理論編)
第3回	強化学習 (実践編)
第4回	ARモデル
第5回	ランク学習

ARモデルの回は tmtk が投稿した以下の記事が中心となっていますので興味がある方はご覧下さい。

おわりに

この記事では、データサイエンスチームがこれまでに行なってきた社内読書会・勉強会についてご紹介しました。今後も社内外の勉強会・セミナーや学会参加を通して得られた知識・知見を機械学習を用いたサービス開発やデータ分析案件に生かしていきます。

おまけ

先日 (2019-03-20) Keras の開発者として知られる François Chollet 氏が東京で講演 [1] されるということで聴きに行ってきました。参加者の関心が大きく質疑応答は予定時間を過ぎるほど活発に行われました。内容は、深層学習の可能性と限界そして将来の展望で、講演の動画が公開されていますので興味がある方や当日惜しくも参加できなかった方は是非ご覧下さい。また、参考文献に The Keras Blog に投稿された記事 [2], [3] や紹介された関連論文 [4] を載せておきます。