みなさん、こんにちは!🌞 HEROZ株式会社 採用担当の「サンペイアヤノ」です。
本日は巷で話題!?の【HEROZの開発環境】についてサラッとおさらいしちゃいます!
これまで、
- 2018年11月 GPU(NVIDIA V100×128基)導入
- 2020年2月 CPU(Supermicro ブレードサーバ×20ノード)導入
- 2020年11月 CPU(Supermicro ブレードサーバ×80ノード)導入
と、「世界を驚かすサービスを創出する」ため、着々と自社サーバを強化して参りました!
2018年にはこんなストーリーを公開。計算資源を自社で多く抱えているHEROZはエンジニアさん界隈で一躍有名に・・・!開発環境を整備することに余念がないHEROZです(キラーン)
そして先日、新たにGPUサーバを追加し、さらなる自社サーバ強化をプレスリリース!🎉
新たに、高い計算処理密度、パフォーマンス及び柔軟性を提供する世界初の5PFLOPSのAIシステムNVIDIA DGX A100を新たに9台も追加!
2018年11月のV100導入から先日のA100導入に至るまで、HEROZはあらゆる課題をAIで解決するため、その研究開発の根底にあり欠かせない「計算環境」の整備に力を入れてまいりました。
HEROZの開発環境については、いろいろなところでご活躍されているエンジニアさんからも非常に魅力を感じていただけているとサンペイもよく耳にしています・・・!(ありがとうございます👏)エンジニアがストレスなく開発に打ち込めるよう、精度の高い技術をより早く・より多く社会実装できるよう、これからもぜひご注目いただきたいHEROZの大きな強みのひとつです。
#HEROZの【計算環境】について。
今回、技術知識ド素人のサンペイ(「GPU?GPS?え、位置情報?」レベル相当)に、HEROZの計算環境についてこの方が教えてくれました!
☖HEROZ株式会社 AIエンジニア 清田 英寿さん
2012年4月、新卒でHEROZ入社。埼玉大学 工学部 機械工学科在籍時には日本機械学会畠山賞を受賞し、同大学を次席で卒業。その後、東京大学大学院に進学し修士課程を修了。画像センサーの関連するロボット研究に取り組む。HEROZ入社後はゲームAI関連の開発に従事し、長く「ゼノンザード」デジタルカードゲームにおける対戦AIの開発を担当。
AIエンジニアの清田さん。めちゃめちゃど素人質問連発のサンペイに優しくHEROZの計算環境について教えてくれました・・・優しい・・・そんな優しい清田さんは、開発に携わったクライアントから神と崇められるほど、HEROZらしく尖ったエンジニアです!
―清田さん・・・読んでる皆さんはご存じの方多いと思うんですけど、とりあえずサンペイにGPUについて教えていただけませんか?😭😭GPUは計算を回す機械・・・なんですよね?(笑)
(清田さん)はい、それは間違っていないです。(笑)
GPUを簡単に説明するとグラフィック処理に使われるプロセッサー(計算機)なんですが、HEROZではGPUをグラフィックス計算機としては扱ってないんですよね。
―ほぇ~!(グラフィックス プロセッシング ユニット、略してGPU。なるほど。)
(清田さん)GPUはもともと絵を描くために計算能力を培ってきたのですが、HEROZはAI開発をする会社なのでそのグラフィック処理には使わず、小さなスーパーコンピューターとして扱っています。
―「グラフィックの処理能力」がすなわち数値を計算する能力で、その計算能力を応用して現在に至る、と!
(清田さん)昔のGPUはディープラーニングとはそこまで関係なかったんです、その時は当然AIに使おうだなんて考え方はなかったと思います。15年ほど前から科学技術計算の分野でGPUの計算能力が高いということで注目されはじめました。AI開発にGPUが使われるようになったのは、AIの中でもディープラーニングで大量の学習=計算を回すことが必要になるので、計算能力の高いGPUが採用された背景があります。
―なるほど、AIの分野、特にディープラーニングの研究開発において計算能力の高さが注目されてGPUが使われるようになったんですね!
次はHEROZの計算環境についてお伺いしたいのですが、HEROZに大規模な計算サーバが導入されていることはいろんな場面でご注目いただいています。業務環境に大規模な自社サーバがあることのメリットってどんなところで感じますか?
(清田さん)性能の高いGPUを使うことで、まずディープラーニングの学習が早くできるのがメリットです。例えば、一つのCPUだと半年かかるような学習であっても、GPUであれば1ヶ月でできたり、そのGPUを16個、32個・・・と何個も使えば3日以内、2日以内とどんどん学習期間を短くできるわけです。
その高性能の計算環境が自社サーバとして整備されているとなると、(サーバが空いていれば時間当たりの)コストも気にせず、さまざまな計算方法を繰り返して試しやすいのでエンジニアとしては開発に没頭できます。試行錯誤できる上に学習期間の大幅な短縮が叶うのでストレスなく開発できるのは大きな魅力かと。
―ないと困ることってありますか?
(清田さん)そもそもGPUを使わないとディープラーニングの学習に時間がかかってしまって、1回の学習に1ヶ月以上かかるようになってしまうんですね。AI開発っておおよそ失敗を重ねて成功にたどり着くものなので、1回学習で1ヶ月以上かかるようでは失敗を重ねることはできないですよね。現実的にそういう手法は利用できなくなり、そうなると実質ディープラーニングが選択肢から外れることになるので、AI開発としては大きな制限になってしまいます。
なので、AI開発にあたって「GPUを利用できる環境がない」というのは考えにくいです。そうなると、HEROZならでは魅力って、「量」だと思います。先ほど「大規模サーバ」という言葉が出てきましたが、学習を重ねるにあたっては計算資源の量がどれくらいの環境か?、HEROZはそれが「大規模」であることが魅力ですね。
HEROZの計算資源の潤沢さについては先日のエンジニアイベントでも語られ、参加いただいた皆様にも大きな反響をいただきました!
―清田さんの携わられたプロジェクトで計算環境の便利さを実感したことはありますか?
(清田さん)ゼノンザードでは計算時間短縮のためにGPUがたくさんあるというのは便利でした。学習期間がそれなりに長いと何回も学習できないので、その分だけクオリティを上げられたと思います。
あとはHEROZってかなり良いCPUサーバも使っているんです。ゼノンザードの開発ではGPUサーバと一緒にCPUサーバも使いました。実際にGPU2台、CPU30台ほど利用して、GPUで学習しながらCPUでたくさんの対戦をこなしていくような使い方をしていましたね。一般的なゲーム開発であれば間違いなくCPUを大量に使うので、そういった面でもかなり便利でした。
精度の高いAIを開発できる環境が整っているということなので、エンジニア・開発のメリットに目が行きがちですが、最終的にはAIを使う方、HEROZで課題解決をお手伝いしているクライアントさんのメリットになっていると思いますね。だいたいの開発プロジェクトは開発期間が決まっています。GPUがたくさんあることで計算時間の短縮ができて、その時間を活用して何度も学習させることによってより良い精度のAIができるものなので、よりよいAIを提供することに繋がりますね。
HEROZの計算環境に関してはエンジニアとしてとても良い環境だなと思っています。
―HEROZがGPU環境を整えることは、たくさんのプロジェクトが並行しても、1プロジェクト内で何度も何度も計算を回しても、大きな待ち時間なく精度の高いAIを提供でき、「AIの社会実装」を叶える上で欠かせないことであると分かりました!
清田さんが、主にパフォーマンスの部分で内部的にどうなっているのかを調べたくなった時に開く本。GPUの知識が書かれていて勉強になったそうです。
#こんなところでもHEROZ社員に利用されています!
そして、先日(2021年5月3日~5日)行われた、第31回世界コンピュータ将棋選手権にはHEROZから3名のエンジニアさんが参加されました!みなさん、本当にお疲れ様でした!
その大会において、AIエンジニア 山口祐さんが開発した「PAL」というソフトがディープラーニングベースの将棋AIソフトでは初の決勝進出、そして準優勝という素晴らしい成績を残しています!おめでとうございます👏👏
準優勝の裏には【HEROZのデータセンター活用】があったとか!
―何やらすごいらしい・・・教えて!山口さーん!📣
(山口さん)HEROZのデータセンターについては、将棋ソフトの強化学習の計算と、大会当日の対局サーバとして使用しました。A100については私が事前に想定していたより性能が2.5倍ほど高く、決勝進出~準優勝の原動力になりました。
強化学習: V100 40基 x 500時間 = 20000GPU時間程度 (V100は全体で128基あり、そのうち約1/3を夜間・休日に使用)
大会当日:A100 8基 を使用(A100は全体で72基あり、そのうちの1/9を大会期間中使用)
クラウドを借りると1時間5000~6000円くらいかかり、同等のチューニングや比較、連続動作確認だけで20万円以上かかってしまいます。時間を気にせず占有できたので、大会用のチューニングが余裕をもってできたのは他にない有利な点でした。
ーひえ~!かなり高額・・・
(山口さん)有力チームでも、当日に目的のサーバが借りられなかったり、メモリ枯渇するなどマシントラブルで負けになるなどして決勝に進むことが出来なかったチームもあったので・・・
―マシン性能が良いというだけでなく、「自社でサーバを保有する」のはマシントラブル回避というメリットも・・・!だからHEROZとしてAI開発するにあたっても、クライアントにも安心して技術提供することが出来るんですね!
さて、今回は改めてHEROZの計算機・データセンターについてご紹介いたしました!いかがでしたか?エンジニアの皆さんにとっては非常に魅力的な環境なのではないでしょうか👨💻✨💪
開発環境を含めHEROZにご興味のある方は、ぜひご面談などお話聞きに来てくださいね!
HEROZでは熱意があり、粘り強く一緒にチャレンジしていける優秀な仲間を募集しています!
募集職種はこちらからご確認いただけます☟