会員登録すると
このコラムを保存して、いつでも見返せます
世界中のデータサイエンティストら15万人以上が参加する「Kaggle(カグル)」。企業や公的機関によるデータ分析のコンペティション(コンペ)が常時開かれ、多くの参加者が腕を競う。彼らの最高峰に立つのが、世界で約200人、日本人では数えるほどとされる「Kaggle Grandmaster」。米国GPU(画像処理半導体)大手のNVIDIA(エヌビディア)で働く小野寺和樹さんは、その称号を持つ一人だ。プログラミング、数学、分析対象となる分野の知識など、幅広い力が求められるコンペで勝ち続ける彼は、現在「Kaggleに参加すること」が仕事なのだという。世界最高峰のデータサイエンティストはどんな思考をするのか、そして、時に寝る間も惜しんで熱中するというKaggleの魅力とは何か。小野寺さんに聞いた。【松本香織、藤崎竜介】
1. 仕事=Kaggle=趣味。脳医学、生物学など他分野の専門家と予測モデルを作り続ける、“コンペ漬け”の日々
2. DeNA時代、3000位台→準優勝の大逆転劇でGrandmasterに昇格。勝因はダミーデータへの「気づき」
3. 眠る時間を削るほど熱中するから、勝てる。多くをもたらしてくれたKaggleには「足を向けて寝られない」
4. 線形代数と評価関数の基礎は「分かったほうがいい」。ただ、論文の“うのみ”は禁物
仕事=Kaggle=趣味。脳医学、生物学など他分野の専門家と予測モデルを作り続ける、“コンペ漬け”の日々
――2020年3月から在籍するNVIDIAでは、業務時間のほとんどをKaggleに費やしているそうですね。
小野寺:はい。9割超の時間はKaggleをやっています。完全に趣味が仕事になった感じですね。最初にNVIDIAに声をかけてもらった時は「えっ、遊んでいるだけでお金がもらえるの?」と驚きました。
――小野寺さんが業務時間をKaggleに費やすことは、NVIDIAにとってはどんな意味があるのですか。
小野寺:Kaggleで得たデータサイエンスの知見などを、会社に還元しているんです。今は主に、「RAPIDS」(*1)というソフトウエアライブラリを充実させるのに貢献しています。
*1 NVIDIAがオープンソースで提供する、データ分析をGPUで高速に実行するためのライブラリ
◆インタビューはオンラインで実施
データサイエンティストの交流プラットフォームとして、世界屈指の人気を誇るKaggle。2010年の開設以来、ユーザー増が続き、2021年5月6日時点でコンペへの参加経験者は約15万6000人に上る。2017年には運営元がGoogleに買収され、話題を呼んだ。
主要機能のコンペでは、主催する企業などがテーマやデータを提供するのに対し、参加者はプログラミング言語「Python」などでそれに応じた予測モデルを作り、精度を競う。
常に複数が進行する各コンペのテーマは、医療、小売り、金融など多分野にわたり、勝者への報酬も数百万円規模の金銭から「学習機会」(つまり実質なし)という “無償型”まで、さまざまなパターンがある。
――NVIDIAに入ってからは、どんなコンペに出ているのでしょうか。
小野寺:NVIDIAの事業に関連するということもあり、画像データを扱うコンペが多いですね。例えば、脳のMRI画像から年齢を推定する「TReNDS Neuroimaging」。脳医学の知識がまったくなかったので、資料を買い込んでどの部位の血流が年齢に関係しているのかなどを、勉強しましたね。結果、準優勝することができました。
他では、カテーテルの挿入方法が安全かを確かめる「RANZCR CLiP - Catheter and Line Position Challenge」。参加者には医師兼データサイエンティストみたいな人たちもいました。
◆上記画像はイメージ
現在はヒトの細胞を分類する「Human Protein Atlas - Single Cell Classification」に、Kaggleで知り合った生物学に詳しい人とチームを組んで挑んでいます。バックグラウンドの違う人たちとつながって、知らないことを教えてもらえるのもKaggleの面白さですね。
DeNA時代、3000位台→準優勝の大逆転劇でGrandmasterに昇格。勝因はダミーデータへの「気づき」
――最初に出場したデータ分析のコンペはKaggleではなく、コンピューター分野の国際学会「ACM」の分科会が2015年に開いた「KDD CUP 2015」だったそうですね。
小野寺:はい。金融コンサルの会社に勤めていた時、新人研修としてチームで出場し、準優勝しました。このコンペは、MOOC(大規模公開オンライン講座)の受講者の継続率改善を目的としたものでした。新規登録者が30日以内にまた受講するか、などを予測するわけです。
――どこに面白さを感じましたか。
小野寺:僕はもともと、人間の行動と経済の関連性に興味があるんです。学生時代、一時は経済学者を志したくらいですから。だから、ユーザーの行動データを分析するのが単純に楽しかったですね。
チーム内では、主に「特徴量」(*2)を設定・抽出する役目を担いました。
*2 各データを特徴づけ、かつ数値などで度合いが表れる項目。分析テーマによって設定・抽出すべき特徴量は異なる
例えば「各ユーザーが1週間で何時間くらい受講するか」は、利用動向を把握するうえで重要な情報(=特徴量)です。このような項目を他にもたくさん考えて、正確な予測ができるようにしました。
この時、「自分はデータ分析に向いているかも」と感じました。特徴量の設定・抽出は今も得意なほうだと思います。
Kaggleを知って参加し始めたのも、この2015年ごろですね。
――その後2018年2月から2年間在籍したDeNAには、Kaggleでの実績によって業務時間内でKaggleに参加していい時間が決まる制度があるようですね。
小野寺:そうですね。僕の場合は業務時間の30%までKaggleに割くことが認められていました。その制度のおかげでKaggler(カグラー=Kaggle常連ユーザー)がDeNAに集まり、友達も増えましたね。
コンペに参加していると知り合いは増えるけれど、普通はオンラインなので直接会う機会がほとんどありません。でもDeNAでは、いつもコンペで名前を見ている人たちと一緒に仕事ができた。他の会社では得られない体験でした。
――小野寺さんはDeNA在籍時の2019年、スペインのサンタンデール銀行がKaggleで開催した「Santander Customer Transaction Prediction(SCTP)」で準優勝してGrandmasterに昇格しました。しかも、締め切り2週間前には3000位台だったのに一気に追い上げたという、大逆転だったそうですね。
小野寺:あのコンペは問題もデータもシンプルで取り組みやすかったからか、参加者が9000人近くもいたんです。当初、トップ10圏内に社内の若手がいて、チームを組まないかと持ちかけたら断られてしまう、なんていうこともありました。僕がその時3000位台だったからですね……。
他に社内を見渡したら、3000位台の下のほうにいる人たちがあと2人。「ポンコツ同士、一緒にやるか」と3人でチームを組み、まず作戦会議を開きました。すると会議の3時間後には一気に100〜200位に上がり、1~2日後には20~30位になって、さらに2~3日後にはトップ10圏内だった後輩を抜き、最終的には準優勝しました。
――そんな短期間で、どうやって……。
小野寺:「3人寄れば文殊の知恵」的な相互作用ですね。SCTPは少し変わったコンペで、その特殊性に気づくかが重要なポイントだったんです。提供されるデータに取り除くべき“ダミー”が入っていて、それに気づけば劇的に順位が上がる。なので、実質はトップ100くらいで争っていたのだと思います。チームの3人が持つ情報がまったく違っていたので、作戦会議をしたらすぐそこに気づいたんです。
そして、3人の情報を統合しつつ、実験を繰り返しながらモデルの精度を高めていきました。画像などではなくテーブル(表)形式のデータを扱うコンペだったことも、プラスに働きましたね。データの読み込みが速く、実験結果がすぐ出るからです。こういうコンペでは大逆転が起こり得ます。
Kaggle最上級者を意味するGrandmaster。この称号を得るには、コンペでトップ10圏内など(コンペにより異なる)の基準を超えた者が獲得する「金メダル」を、5つ以上そろえることが必須条件。なおかつ、そのうち1つはチームではなく単独参加で得たものでないといけないという、“しばり”付きだ。
小野寺さんは2017年、米国企業主催の「Instacart Market Basket Analysis」で準優勝し、個人での金メダルを獲得。2019年にはSCTPでの準優勝により通算5つ目の金メダルを手に入れ、Grandmasterに昇格した。
眠る時間を削るほど熱中するから、勝てる。多くをもたらしてくれたKaggleには「足を向けて寝られない」
――情報収集やチームプレー以外で、勝つために大事なことは。
小野寺:Kaggleにはメンタルがものを言う側面があります。限られた時間の中、幾度となく実験を回すので、人によっては「これを続けても意味はないだろう」と諦めたくもなるんです。でもコンペ終了後に優勝者の解法を確認すると、その諦めたやり方が当たっている、なんていうことが結構あります。
なので、諦めそうになった際、時には「絶対にこれでいける!」と自分を“洗脳”して、やり続けることが大切なんだと思います。本当に熱中していると、実験がうまくいかなくても続けられますからね。続けていれば、モデルの精度がよくなったり、新たな発見があったりします。
――では、好成績を出している小野寺さんは、他の人に比べて「Kaggleに熱中できるタイプ」ということでしょうかね。冒頭出たKaggleは仕事であり趣味でもある、といった意の発言が印象的です。それだけのめり込めるのはなぜでしょうか。
小野寺:僕はもともとゲームが大好きなんです。中学、高校、大学とゲームセンターに入り浸り、延々と格闘ゲームをやっていたくらいで。Kaggleはゲーム感覚で楽しめる作りになっていて、また世界でランキングを争うので、よく「ネットゲームみたい」と言われるんですよね。だから熱中できるんだと思います。
――それこそ、寝る間も惜しんでという感じでしょうか。
小野寺:時にはそうですね。2~3時間寝て、プログラムを書いて、また2~3時間寝て……というサイクルを繰り返す感じです。面白いアイデアが浮かんでくると、その結果がすぐに見たくなる。そんな時は、眠る時刻でもそちらのほうに興味が向いて、自然と目が覚めてしまうんです。とはいえ、合計すれば1日6時間くらいは眠っていると思いますよ。
――では、ゲームよりもKaggleのほうが魅力的だと感じる部分はありますか。
小野寺:ゲームは完全に娯楽で、これはこれで自分にとって大切なものです。ただ僕の場合、ゲームばかりやっていると、罪悪感みたいなものが残ります。
一方、Kaggleは、楽しみながらも時に社会貢献ができるんです。
――社会課題の解決を目的としたコンペは多いですしね。
小野寺:はい。僕が最近準優勝した「OpenVaccine: COVID-19 mRNA Vaccine Degradation Prediction」というコンペは、新型コロナウイルスワクチンの安定供給につながるものでした。こういうコンペは、いいモデルができるとみんなが喜んでくれる。これもついKaggleに熱中する理由の一つでしょうね。
それに、考えてみれば僕は大事なものの多くをKaggleで手に入れてきました。お話ししてきたようにKaggleによって仕事を得て、友達も増えた。Kaggle本社のある米国のサンフランシスコには、足を向けて寝られませんね。
線形代数と評価関数の基礎は「分かったほうがいい」。ただ、論文の“うのみ”は禁物
――データサイエンスの分野では、数学の素養が必要だとされます。小野寺さんは社会人になってから数学を学び直しましたか。
小野寺:多少ですが、勉強しました。線形代数に関する本の目次を、軽く読むところから始めましたね。
◆上記画像はイメージ
――目次ですか。
小野寺:まず目次だけでも、意味はあると思います。用語を押さえられますし、自分の頭の中になんとなくマップができて、どこを勉強すればいいかわかってくるんですよね。本の全てを理解する必要はないんです。
よく「数学ができないから」とKaggleへの参加を躊躇(ちゅうちょ)する人がいるけれど、求められる知識量は意外とたいしたことはありません。必要な部分をその時々で勉強していく「パラシュート勉強法」が最も効率いいと思います。
――線形代数以外で勉強しておいたほうがいいことはありますか。
小野寺:コンペなら、評価関数は分かったほうがいいでしょうね。Kaggleなどでは予測モデルの精度が数字で示されます。それを導き出す評価関数を理解できると、どんなモデルが高評価されるかに気づきやすくなるので、作業が速くなります。
――勉強する上で注意したほうがいいことはありますか。
小野寺:データサイエンスなどの論文に書いてあることを、“うのみ”にはしないほうがいいと思います。論文に載っているようなきれいに定式化されたモデルは、現実のデータ分析に当てはまらない場合があるんです。論文だと、「たまたま」そのモデルと使われたデータの相性がよかった、ということもありますから。
それよりも、分析の対象となる分野・業界の知識、そしてデータそのものを「よく見ること」のほうが重要だったりします。
――データをよく見るとは。
小野寺:何が問われるコンペなのかを考えた上で、各データが持つ意味を見極めることですね。極端な例ですがリピート購入される商品を特定するコンペで、ある人がペットボトルの水を24リットル買ったという行動データがあったとします。それがすごく魅力的な商品だという付随情報があったとしても、普通、翌日に再注文されるとは考えにくいですよね。機械的に分析するだけでは意外と見落しがちなので、そこはしっかり考えないといけません。
――そのほか、Kaggleに挑戦する人が意識したほうがいいことはありますか。
小野寺:「楽しむこと」に尽きますね。お話ししたように、僕はゲームで遊ぶ感覚でやってきています。勉強もしますが、「努力」とか「頑張る」といった感じではありません。苦しんでまでやるものではないですから。
Kaggler枠―。昨今Tech系人材の採用などで、こんな言葉がよく聞かれる。企業がKaggle上級者を採るべく設ける、データサイエンティスト専用のポジションやチームのことだ。
機械学習を用いた画像検査システムなどを手掛けるスタートアップのRistは、2020年1月にKagglerが集うチームの創設を表明。アドバイザーに小野寺さんを招いた上で、Kaggle上位入賞者を対象に入社時年収1000万~1200万円の「枠」を用意し、採用を加速させている。
また、小野寺さんの古巣、DeNAは2021年1月に社内のGrandmasterが国内最多(同月15日時点、同社調べ)の3人になったと発表。Kaggleでの上位入賞を高評価するデータサイエンティスト用の制度も掲げ、優秀なTech人材の採用や成長につなげている。
会員登録すると
このコラムを保存して
いつでも見返せます
マッキンゼー ゴールドマン 三菱商事
P&G アクセンチュア
内定攻略 会員限定公開
トップ企業内定者が利用する外資就活ドットコム
この記事を友達に教える