データサイエンス関連参加イベントまとめ（2017年）【後半】

2017.12.2

この記事は#DataScience by DATAHOTEL Tech blog Advent Calendar 2017の二日目の記事です．
データサイエンス関連参加イベントまとめ（2017年）【前半】にて，今年参加したイベントのリストを作成しました．
後半では，リストを手動クラスタリングして内容について考察したいと思います．

2017年はどんなイベントに注目したのか

	AI（人工知能）/機械学習	オープンソース技術	セキュリティ	データビジネス	基礎技術	クラウド
1月	3
2月	3	1	1	2
3月	2			3	4
4月	3			1
5月	2				1
6月	6				1	1
7月	4
8月	3				1
9月	2	2		3	2
10月	3	2		4
11月	2					2

明らかに毎月のようにAI（人工知能）/機械学習関連のイベントに参加してきたようです．
ところで，「AI（人工知能）」という言葉と「機械学習」という言葉の違いは御存知でしょうか．

AI(人工知能）と機械学習

こちらの論文では，「機械学習は人工知能を作る上での一つの方法である」と説明されています．
ACM:Association for Computing Machinery)（筆者注：計算機科学の学会）の学会誌であるCommunications of the ACMの2017年10月号より：
The Real Risks of Artificial Intelligence

Machine Learning
Another approach to creating artificial intelligence is to construct programs that have minimal initial capability but improve their performance during use. This is called machine learning. This approach is not new. Alan Turing speculated about building a program with the capabilities of a child that would be taught as a child is taught.1 Learning is not magic; it is the use of data collected during use to improve future performance.

人工知能を作るための違うアプローチは，最初は無かった能力を実行中に向上させていくプログラムシステムを構築することです．
これは機械学習と呼ばれ，新しいものではありません．
アラン・チューリングは，子供のような能力を持ち，子供が学ぶように学ぶプログラム制作について述べていました．学習は魔法ではなく，今後のパフォーマンスを改善するために使っている間に集めたデータの使い方なのです．

しかしこの論文が指摘する主張は機械学習についての説明ではなく，次のような人工知能に関する意見です．これが，まさに2017年を象徴しているように思えます．

Remarkably, those who use the term “artificial intelligence” have not defined that term. I first heard the term more than 50 years ago and have yet to hear a scientific definition. Even now, some AI experts say that defining AI is a difficult (and important) question—one that they are working on. “Artificial intelligence” remains a buzzword, a word that many think they understand but nobody can define.

注目すべき点は，「人工知能」という用語を使う人はその用語を定義してこなかった点です．
私は50年以上前に聞いてから未だに科学的な定義を聞いたことがありません．
今でもAIの専門家でもAIを定義するのは（重要ではありますが）難しい問題だと述べる人もいます．
「人工知能」はバズワードであり，多くの人が分かっているつもりでいても誰も定義出来ない言葉なのです．

「ビッグデータ」のように，バズワードと言われながら残っている言葉もあるので，来年は「AI（人工知能）」はどうなるのか楽しみです．

考察

とは言え，バズワードだろうが何だろうが大幅に進歩した技術には，例えば話題になった強化学習による人間より強いゲーミングのアルゴリズムがあります．日本人にとって馴染みの深い囲碁についても話題になりました．
その囲碁について，四半世紀ほど前，日本政府に寄るプロジェクトの報告書の中で，次のようなシステムの開発と成果が述べられています．
第五世代コンピュータ・プロジェクト最終評価報告書

第五世代コンピュータ・プロジェクト
最終評価報告書
（略）
(資料)第五世代コンピュータ・プロトタイプ・
システムの概要
（略）
棋士システム碁世代
囲碁の対局を行なう棋士システム。 PSI 上の逐次版と PIM 上の並列版とがある。
コンピュータ囲碁は、チェスなどに代表されるコンピュータゲームプログラムで成功した探索主体の方法では強くなれない。そこで、人間プレイヤーの思考方法のシミュレーションを通じて「碁世代」を開発した。局面認識の方法や、次の着手を考える際に盤面の重要なところに絞り込んで考える点に特徴がある。逐次版「碁世代」はアマチュア中級程度の強さを持ち、 1992 年の世界コンピュータ囲碁選手権で４位となった。並列版「碁世代」は、世界初の並列処理を取り入れた囲碁システムである。並列版「碁世代」では、次の一着の決定は一定の時間内に収めながら、暇なプロセサに後で役に立ちそうな別な箇所を検討させる方式を考案・試作し、さらに強いシステムを作れることを実証した。

この第五世代コンピュータ・プロジェクトの報告書で触れられている「世界コンピュータ囲碁選手権」はコンピュータ同士の囲碁の対戦大会であり，もし人間に勝利したらノーベル賞賞金にも匹敵する約1億円の賞金が出るということで話題になりましたが，条件である西暦2000年までに人間に勝利するソフトウェアは現れずに終了致しました．AlphaGoなら賞金を取れるわけで，その意味ではAI（人工知能）は大きく進歩しています．
そんな流れの中で，AI（人工知能）と共にバズワードとなり，AI（人工知能）の中心的な技術とされてきたディープラーニングは，課題に対する正解（ラベル付き）データを与える教師有り学習で今年も話題になりましたが（例えばDeepFashionのような大量データを使う），筆者も参加した第20回情報論的学習理論ワークショップでは，半教師有り機械学習が発表の大部分を占めていました．これは大量の正解データではなく，例えば少数の正解データ＋分からない（ラベル無し）データから学習する手法です．少数のデータにノイズを加えたり意図的に変化させたりするなどの手法でデータを増やすアルゴリズムも紹介されていました．また，人間の知識を利用して教師無し学習を用いて学習を実現する手法も半教師有り学習と呼ばれています．
来年の予測としては，AI（人工知能）やディープラーニングという言葉は，マイナスイオンやプラズマクラスタのように企業が宣伝のために使い続ける，現場・学術的な場ではデータの与え方が多様になり，大量過ぎる必要な教師データや深すぎるディープなネットワークは必ずしも必要は無くなっていく，というところだと思います．
2018年は教師有り学習，教師無し学習，半教師有り学習，そしてメタ学習がうまく融合していくことは間違いないでしょう（参考：Deep Learningは半教師あり学習で簡単になる）．御注目下さい．