会員登録すると
このコラムを保存して、いつでも見返せます
クラウド上での名刺管理や請求書受領のサービスで知られるSansan。データを分析し、ビジネスの課題を解決に導くデータサイエンティストが活躍している。
大学院でデータ分析や機械学習を修め、新卒で同社に入社した保坂大樹さん。最初に携わったのは、名刺アプリ「Eight」のユーザー向けに配信するビジネスニュースの最適化プロジェクトだった。
特集「データサイエンティストとは何者か」の第8回では、保坂さんが同プロジェクトで成し遂げたこと、プロジェクトを経験して学んだことなどを紹介。データサイエンティストの実態に迫る。【斎藤公也】
1. 画像処理、言語処理、社会科学……データサイエンティストの専門分野の多様さに魅力を感じて入社
2. アルゴリズム開発と検証、事業部門との合意形成、さまざまな工程が「泥臭かった」
3. プロジェクトを一貫してリードできる存在を目指す
画像処理、言語処理、社会科学……データサイエンティストの専門分野の多様さに魅力を感じて入社
――大学院では、経営システム工学を専攻されています。もともと経営に興味があったのでしょうか
保坂:そうですね。テレビドラマの影響で、経営者に憧れを抱くようになり、早稲田大学の経営システム工学科に入学しました。経営システム工学というのは、経営に関する諸課題を工学的な観点から最適化していく学問です。
データ分析は、授業を聴講して興味を持ちました。その後、データ分析や機械学習を専門とする研究室に入り、データによって課題を解決できることに面白さを感じ、どんどんのめり込んでいきました。こうした知識を生かせる仕事がしたいと考えるようになったのもこの頃です。
――経営者を目指していたのであれば、起業という選択肢もあったと思います。Sansanに入社したのは、なぜでしょうか。
保坂:大学の研究室の先輩の勧めで、当社の採用関連のイベントに参加したのがきっかけです。その際、まず驚いたのは、所属する研究員のバックグラウンドの多様さでした。画像処理や言語処理、社会科学の専門家などが在籍していて、この人たちと議論をして、一緒に仕事ができればいいなと考えるようになりました。
――Sansanでは、「研究開発部」に所属されています。業務内容を詳しく教えてください。
保坂:自然言語処理技術を使い、テキストの分類や情報の抽出などを担当しています。当社は、クラウド名刺管理サービス「Sansan」、名刺アプリ「Eight」、クラウド請求書受領サービス「Bill One」などを提供しています。研究開発部は、社内では”全社横断の研究開発組織”という位置付けです。サービスごとに研究員数人が携わっているため、結果的に、組織としてさまざまなプロダクトに関わっています。
私は、SansanやEightで配信されるニュースの品質向上や、Bill Oneのエンジン開発に携わっています。業務内容の一例としては、Eightで配信しているニュースをより多くのユーザーに見てもらうため、ユーザーの行動や属性などのデータを解析する、といった内容です。
――解析したデータをどのように生かしていくのでしょうか。
保坂:機械学習などを用いたアルゴリズムとして、プロダクトに組み込みます。
例えば、事業部などからプロダクトの改善要望が上がってくるとします。それに対して、私たち研究員はまず、改善策についての仮説が正しいか、何をすれば解決できるか、などを分析します。その後、機械学習などを使い、最適化したロジックをプロダクトに実装していきます。この工程は研究員だけではなく、エンジニアも関わってきます。
アルゴリズム開発と検証、事業部門との合意形成、さまざまな工程が「泥臭かった」
――保坂さんはこれまで、さまざまなプロジェクトに関わってきたと思います。印象に残っているプロジェクトについて教えてください。
保坂:Eightで行っているニュース配信を最適化することを目指したプロジェクトです。
Eightでは、ユーザーが名刺交換をした企業、ユーザーが所属している企業やその同業他社に関するニュースを配信するサービスを展開しています。その際、配信するニュースは、他媒体からの提供を受けています。
原則として、Eightはビジネスパーソンを対象にしたプロダクトのため、ビジネスに関するニュースを中心に配信していく必要があります。ですが、世の中にはビジネスとは関係がない多様なニュースを扱っている媒体も多くあります。これまでは、そうした媒体をEightで配信するニュースのソースとして使っていませんでした。
媒体の規模が大きくなればなるほど、ビジネスとは関係が薄いニュースの扱いも増えます。しかし、規模の大きな媒体をソースとして使わなければ、Eightで配信できるニュースの量は限られてしまいます。規模の大きなニュース媒体をうまく活用できないかという思いから始まったプロジェクトが、私が入社して初めて関わったプロジェクトでした。
この課題を解決するため、個々のニュースがビジネスに関するニュースかどうかを判定するロジックを開発しました。ビジネスとは関係がないニュースも扱っている媒体からも、ビジネスに関するニュースだけを選別して、Eightで配信することが目的です。
事業部門などと行った課題や改善すべき項目の抽出などの工程を経て、プロダクトにアルゴリズムを組み込み、実際に動き始めるまで4カ月程度を要しました。
――保坂さんはその中で、どのような役割を担ったのですか。
保坂:私は、ビジネスニュースかどうかを判定するロジックを実現するためのアルゴリズムの開発と検証に関わりました。さらに、その結果を事業部門と共有して、実際にプロダクトに組み込んでいきました。
”検証”では、少ないデータと簡易なアルゴリズムで、そのニュースがビジネス系かどうかを試行的に分類し、結果が良さそうだったら、さらに多くのデータセットを使って、アルゴリズムをつくっていきました。ここがうまくいかないと、プロジェクトの成果が得られない可能性があるため、重要な工程です。
――では、そのプロジェクトはどんな成果を上げましたか。
保坂:使えるニュースソースが増えた結果、Eightで配信できるニュースの数が、プロジェクト前と比べて10%程度増えました。ビジネスの情報が欲しいユーザーにとって、目にするニュースの数が増えたため、サービスのDAU(Daily Active User)の増加に寄与したと考えています。
――そのニュースのジャンルがビジネスか、ビジネスではないかの境界は曖昧だと思います。アルゴリズムの開発で苦労したことも多かったのではないですか。
保坂:最初に直面した課題が、まさにそこでした。そもそも「どんなニュースを配信したいのか」という定義が曖昧だったため、ニュース配信を担当している社員と、綿密に擦り合わせをしました。
具体的なアプローチとしては、まず配信すべきではないニュースのパターンのリストを作成します。これに基づいて、配信するべきニュースについての「正解」と考えるデータセットを作成、解析します。さらに、いくつかのニュースを選び、ビジネスニュースかビジネスニュースではないかを判断して、それを基に、アルゴリズムを開発しました。ここでは、文脈からビジネスニュースかどうかを判断するモデルを使いました。
特に苦労したのは、「正解」と考えるデータセットを人力で作成しながら、ニュースを分類する精度を上げていかなければならなかったことです。データ量が少ないと、良い分類ロジックをつくれませんが、データ量が多くなれば、配信すべきニュースかどうかを人手で判断するのは大変になります。
そこで、ビジネスかビジネスではないかの境界が曖昧なニュースを抽出して、人力でビジネスに該当するかどうかを判断し、ロジックを改善していく必要がありました。「能動学習」という手法ですが、これを使って、ニュースの分類性能を上げていきました。
ビジネスニュースかどうかの判断をするのに10以上のパターンを定義しましたが、そのために1,000件以上のニュースをチェックして、そのパターンに漏れがないかなどを事業部門と協働して確かめていきました。
――かなり手間も時間もかかりそうな仕事と想像できます。
保坂:「正解」か「不正解」かを判断するデータの数が増えるほど、分類する性能は向上していきます。ただ、時間が無限にあるわけではないため、事業部との合意を形成しなければなりませんでした。「配信するニュースを増やしながら、精度を上げる」という質と量、双方を求める難しいプロジェクトだったと思います。
――入社後、初めて携わったプロジェクトであれば、学びも多かったのではないですか。
保坂:学生時代との一番の違いは、データセットも作成しなければならないことです。学生時代は、既存のデータセットに対して研究をしていましたが、ビジネスの場では、必ずしもそうではありません。しかもその作成には、かなり苦労したため、いい学びになったと思います。
また、各関係者と合意を取りながら進めなければならないのも、学生時代とは異なります。学生の時は、ある仮説に基づいてデータをつくり、さまざまなアルゴリズムを試す作業が多かったです。仕事だと、そもそもその仮説が正しいのか、データをつくるときの要件は何かなど、きちんと関係者と擦り合わせる必要があります。
一言でいうと、少し泥臭いというか。思っていたよりも「泥臭かったな」という感じですね。地道に愚直にやっていかなければならない業務も多いです。
――データサイエンティストというと、「スマート」なイメージを持たれている仕事だと思いますが、実際、そうとは限らないということですか。
保坂:そうですね。たくさんのデータを扱い、課題を解決していく仕事であるため、そういうイメージを持たれがちです。しかし、アルゴリズムをプロダクトに実装するなど、ビジネスと関わってくる部分ではその逆です。
ですが、その「泥臭い部分」がクセになります。私は、学生時代、問題をいかに美しく解くか、というようなことに興味がありました。実際に働くようになって、学生時代には経験できなかった魅力を味わえています。例えば、専門家でも理解するのが難しいアルゴリズムについて、専門家ではない社員にプレゼンテーションするときなどは、数学や統計学、機械学習以外のスキルや経験も求められるため、常に自分を磨いていかなければなりません。こういう側面も「泥臭い部分」です。
プロジェクトを一貫してリードできる存在を目指す
――現在の業務内容を踏まえて、下図でいうと、保坂さんはどの辺りに分類できますか。
保坂:データサイエンティストと機械学習エンジニアの交わる所です。
――なるほど。理由を教えていただけますか。
保坂:まず、現在の業務では機械学習の知識を使っています。次にビジネス系とエンジニア系のどちら側にいるかを考えたとき、ビジネス側では、KPI(数値目標)を意識して、関係者との調整や合意を形成しながらプロジェクトを進めています。一方、エンジニアと仕様の設計をして組み込んでいくという業務も担当しています。両方の業務をバランスよく担当していると思っているので、ここに印を付けました。
課題の発生、検証、アルゴリズムの作成、プロダクトに組み込んで稼働させる一連の流れを担当していると、ビジネス側とエンジニア側の両方の視点が必要だと思います。
――入社2年目とのことですが、今後思い描いているキャリアがあれば、教えてください。
保坂:現状は、お話しした業務の全てを完璧にこなしているわけではありません。ビジネス側との擦り合わせでは事業部側のサポートを受け、開発部門との擦り合わせではエンジニアのサポートを受けて、アルゴリズムを組み込んでいます。今後は、自分でプロジェクトの最初から最後までをリードしていける存在になりたいと考えています。
――データサイエンティストには、Pythonなどの言語や、数学、機械学習の知識が求められます。どのように習得しましたか。
保坂:まず数学や統計学は、大学の授業で学びました。研究室に入ってから、機械学習やPython、コーディングの知識を習得しました。入社後、一番鍛えられたなと思うのはPythonをはじめとしたコーディング能力です。
――社会人になってからも数学の勉強をすることはありますか。
保坂:そうですね。数学を時間と労力をかけて勉強したのは大学生までです。しかし、論文を読むときに数学の知識が必要になるので、理解できない箇所があると立ち返って勉強をします。
――データサイエンティストを目指す学生や若手社会人が学ぶべき内容の優先順位があれば、教えていただけますか。
保坂::腰を据えて勉強する時間があるのであれば、数学や統計学といった一番基礎になる部分をしっかりやるのがいいのかなと思います。
機械学習は、数学や統計学の上に成り立っていると思います。ですので、数学や統計学を理解していけば、機械学習のより高度な技術やアルゴリズムを理解できるようになり、楽しさも芽生えてくると思います。
最近は、データサイエンティストにとって必要な知識を学べる環境が整ってきていると思います。まずはいろいろ試してみて、自分が本当にそれを楽しめるのかを見極めた方が良いでしょう。
会員登録すると
このコラムを保存して
いつでも見返せます
マッキンゼー ゴールドマン 三菱商事
P&G アクセンチュア
内定攻略 会員限定公開
トップ企業内定者が利用する外資就活ドットコム
この記事を友達に教える