第18回情報科学技術フォーラム(FIT2019)に参加しています

2019.9.5

昨年もご報告しましたが、今年も弊社は情報処理学会・電子情報通信学会主催の情報科学技術フォーラムに参加しております。

昨年の様子はこちら

関連記事: FIT2018 第17回情報科学技術フォーラム参加報告(1)FIT2018概要編

昨年とは違い、今年は第18回で素数でも無いし(3で割り切れる)、2019年で素数でも無い(やはり3で割り切れる)ので切れが良い年ではありませんが、それでも張り切って参加しに来ました。
今年も私は選奨論文で投稿しました。一般論文のセッションよりも若干レベルが高い印象があるからです。ただ、講演したセッションでは１件の発表キャンセルがあったため、３つの発表という少々寂しいものでした。ただし、私以外の２件の講演内容も難しい問題を扱っており、興味深いものでした。さらに、座長の先生が２名おり、異なる角度での質問や意見が出され、とても勉強になりました。

それはともかく、第18回情報科学技術フォーラムのウリは、今年から始まったトップコンファレンスセッションでしょうか。

トップコンファレンスセッションは、各分野におけるトップレベルの国際会議および学術雑誌で最近数年以内に採録された論文の著者に、専用の会場(第4イベント会場: 一般教育棟 B棟 B41)でその内容を紹介して頂く特別なセッションです。FIT では今回が初の試みです。
引用：第18回情報科学技術フォーラム　トップコンファレンスセッション

トップコンファレンスセッションとは、海外の有名な国際会議での研究発表を日本語で解説してくれるというものです。例えば次の写真は講演の最初のスライドですが、英語ですね。

こういう試みは少し前からあったのですが、FITで講演を聞いたり一緒に参加した人と話をして思ったことは、トップコンファレンスレベルの講演が15分だと短いねという感じでした。また、質疑応答も活発になるため、座長も「トップコンファレンスセッションは時間が伸びがちですが、時間内にお願いします」と言っておられました。

私はとりあえず、コンピュータビジョンに関するセッションに顔を出して来ました。
トップコンファレンスセッション(３)：コンピュータビジョン
コンピュータビジョンの世界では、昔から確率統計や機械学習の技術の研究が盛んです。それは、例えばPAMI(IEEE Transaction on Pattern Analysis and Machine Intelligence)の論文投稿を見ると一目瞭然です。トップコンファレンスセッション(３)でも、全ての講演で深層学習技術が使われていました。

トップコンファレンスセッション(３)は画像関係の研究をしている人にとってはお馴染み中のお馴染み、内訳は以下のような感じでした。

CVPR(IEEE/CVF Conference on Computer Vision and Pattern Recognition)：４件(2018が３件、2019が1件)
ECCV(European Conference on Computer Vision)：２件

使われている深層学習の技術としては、まずエンコーダ・デコーダモデルの枠組みに入る系統です。コンピュータビジョンと言えば、画像を撮影することから始まります。例えば複数の撮影画像から３次元モデルを構築するタスクなどが基礎技術として上げられます。そこで、撮影画像から特徴量を抽出する部分にエンコーダ、構築部分にデコーダを用いることで効率的な学習ができ、深層学習とコンピュータビジョンが非常に相性が良いわけです。同じ理由、すなわち画像を構築できる技術ということで、GAN(Generative Adversarial Networks)も多く使われていました。GANについては、NTT CS研の金子卓弘さんが、「MIRU2019のチュートリアル資料を公開したから見てね。143ページあるよ。」とのことでした。

一風変わった、ユニークな(独自性のある)研究もありました。例えば、「自然画像に対する画像中の物体のラベルやバウンディングボックスが付けられた公開データは沢山あるけど、漫画や絵画についてのデータは少ないので研究室でアノテーション作業をさせられている。とてもツラいから自動化を考えた(笑)」というものです。こちらも面白いアイディアで、Google検索でラベルに相当する単語で画像検索すると、ラベル付きの漫画や絵画のデータが入手できると。そのデータと、自然画像のアノテーション付きデータをドメイン転移することで、漫画や絵画のラベル・物体のバウンディングボックス付きのデータセットを作成できるというものです。こちらも東大の井上直人さんが「せっかく作ったんだからどんどん使って下さい！」ということなので、ぜひぜひ使いましょう！
コード＋学習済みデータはこちら

その他にも、画像処理と自然言語処理を両方使う研究もありました。画像の中にラベルのついていない未知物体が存在した場合に、それが何者なのかを尋ねる質問文を生成するというもので、今後の研究の発展がとても楽しみな印象がありました。この研究では質問文の生成にはWordNet＋Poincaré Embeddingsを用いていて物体の状態把握は言語処理が中心なのですが、少し前にZero-Shot Learningが話題になった時に画像中の物体の状況を推定する研究があったので(例えばこちら)、色々な技術を組み合わせると面白そうでした。なお、この関連の研究は評価が難しい(正解データセットが無い、また正解の定義が曖昧にならざるを得ない)ということで、どちらの研究でも評価にはクラウドソーシング(どちらの研究でも、Amazon Mechanical Turkとのこと)が使われていました。すなわち、元の画像と機械学習で作成した質問文(「人間の隣にある茶色い物体は何ですか？」など)を人間に見せて、それの正しさを5段階評価してもらう、などです。

さらに、自動運転技術への応用もできる、移動している人物が見ている動画像データからその人物が見ている他の人がどう移動するかを予測するMulti-Stream CNN(複数の異なるコンボリューション層をデコンボリューション層に結合する)を使った研究などもあったので、興味がある方はFITのプログラム、論文情報をご確認下さい！

それでは、他にも参加されている方がおられましたら、最終日まで頑張りましょう！

テックブログ新着情報のほか、AWSやGoogle Cloudに関するお役立ち情報を配信中！

Follow @twitter