深層ニューラルネットワークにおける訓練高速化のための自動最適化

Link to full Docmestic conference

The slide of this talk

深層ニューラルネットワークの訓練には大量のデータが必要となり,訓練処理時間の長期化が問題となっている.訓練時間の短縮方法として,複数の訓練データを用いて訓練処理を行うミニバッチ訓練という手法が知られている.本研究では,訓練処理時間と関連性が考えられる,訓練処理中の GPU 利用率を最大化するという最適化手法を用いて.訓練処理時間を可能な限り最短にすることができるミニバッチサイズを決定する方法を提案した.提案手法を深層学習フレームワークである Chainer を用いて実装した.Cifar 100 と ImageNet の 2 種類の画像データセットおよび VGG 16 と ResNet 50 の 2 種類の畳み込みニューラルネットワークを用いて提案手法の評価を行った結果,GPU 利用率のみを最大化するアプローチでは訓練処理速度を最短とするミニバッチサイズを決定することは困難であるという結論となった.一方で,データセットごとに訓練処理中の GPU 利用率とミニバッチサイズとの間の相関性に異なる傾向が観察され,データサイズに起因するボトルネックが GPU 利用を阻害している可能性が発見された.

@inproceedings { IPSJ-HPC168:serizawa,
  author = "{芹沢 和洋} and {建部 修見}",
  institution = "{筑波大学大学院システム情報工学研究科コンピュータサイエンス専攻}, {筑波大学計算科学研究センター}",
  title = "{深層ニューラルネットワークにおける訓練高速化のための自動最適化}",
  year = "{2019}",
  volume = "{2019-HPC-168}",
  number = "{25}",
  pages = {1--10},
  booktitle = "{IPSJ SIG Technical Report}",
  url= {http://id.nii.ac.jp/1001/00194707/},
  note = {(In Japanese)}
}

Nifty tech tag lists from Wouter Beeftink