クレジット業界のデータ活用:Credit Karma社のCTO、Ryan Graciano氏とのQ&A

米国における資金調達は、混乱を招く複雑なプロセスとなる場合があります。無数のサービス、利率、フォームは経験豊富な消費者にとっても困難なものです。

Credit Karma社は、個々の借り手のデータを匿名化し、借り手が融資に期待している内容に応じて複数の融資サービスを提供することで、貸付プロセスを簡素化しています。ソファ、車、家かに関係なく、顧客はもはや複数のフォームに記入する必要はありません。Credit Karma社が、顧客にとってのワンストップ・クレジット・アプリケーションとなります。

同社は、どのようなシステムが最適なのかを長年にわたって検証することで、インテリジェントなプラットフォームを構築しました。その過程には、データセンターからクラウドへの移行、大きな経済変動を考慮したアルゴリズムの再構築、生成・収集されるデータの重要性を認識した職場環境の整備などが含まれていました。

The Data Chiefの最近のエピソードでは、ThoughtSpotのCindi Howsonが、 Credit Karma社の最高技術責任者(CTO)であるRyan Graciano氏と対談し、同社のデータジャーニー(旅路)へ彼がどのように関与し、クレジット業界に変革をもたらしたかについて紹介されました。

<br>Cindi Howson:昨年は、大量失業から家賃を先延ばしせざるを得ない人々の中、Credit Karma社にはどのような影響がありましたか?このような異常な状況を考慮して、アルゴリズムを変更したのでしょうか?

Ryan Graciano:適応させてきたとは言えません。人々が過去長年にわたり使用してきたリスクモデルを引き続き使用しています。これらのモデルは、良い時も悪い時も経験しているので、それに応じて対応することができます。 

人々がシステム全体について忘れていることと、それが非常にややこしい理由は、そのリスクモデルが貸し手によって使用されているという点です。それらは人々が理解できるように設計されていませんし、人々に説明できるようにも設計されていません。私たちがこのことを見出したのは、貸付の決定が人々の生活に大きく影響し、そのためにこの需要が生まれたという事実を認識した後です。しかし、システムはその点を考慮して設計されていませんでした。

Cindi:貸付プロセスを説明するという御社の役割を考えた場合、説明可能なAIをどのように捉えていますか?

Ryan:それは誰がエンドユーザーかによって異なるので、難しい質問です。それらについて意思決定する人々なのか、または、いくつかの理由でスコアを付けて購入している側の会社なのかによって異なります。実際のところ、エンドユーザーはそのような会社です。つまり、モデルの作成を促進するために、作成されるモデルに対して支払っている会社です。その後で、人がモデルの対象となります。 

課題は、モデルが適正に動作していることを保証するのが困難な場合がある点です。これに関しては、会社が特定の集団に対するレッドライニングや差別などを行わず、物事を適正に処理することを目的とした法律が多数あります。説明可能性の問題は、規制側と人々の両方にとって主要な問題の1つです。銀行が求めているのは、良いリスクスコアだけです。

Cindi:Credit Karma社は、クレジットには偏りがある、つまりクレジットのジェンダーギャップがあると言っていました。これを防ぐには、どうすればいいのでしょうか?

Ryan:モデルで使用可能なデータの中にその一部が含まれているため、そこから始めたいと思います。一部と言いましたが、実際にはほとんどです。アルゴリズムを制約なく実行した場合、必然的に、相互関係と因果関係の相違を知ることはできません。性別による賃金格差があるならば、返済能力にも性別による差があります。そのため、性別によるリスク格差が生じます。アルゴリズムは、それを捉え、次のように教えてくれます。「ここに格差があります。その理由はわかりませんが、それが存在することはわかります。だから、困難な状況にあるこの性別の他の人々に貸付しないように銀行に伝えるつもりです」。 

これを防ぐには、アルゴリズムが自分で導き出すことができないように、データの一部をモデルから削除する必要があります。アルゴリズムは理由を理解していません。その現象を認識しているだけです。

Cindi:なぜ、かなり早期からGoogle Cloudを使い始めたのですか?このすべての状況はどうなっていくと考えていますか?

Ryan:私たちは、2007年にデータセンターでスタートしました。その後、クラウドに移行し、クラウドネイティブになりましたが、そこに至るまでが1つの取り組みでした。サイトを稼働させるために多くのインフラストラクチャを開発してきました。他のプラットフォームを見たときに、それらのサービスが提供するものの多くは、Credit Karma社では問題のなかったことが中心でした。すでにサービスバスが存在し、良好に動作していれば、サービスバスは必要ありません。私たちにとって課題となったのは、データプラットフォームとペースを合わせることでした。自分たちで設定した分散型コンピューターからSparkインスタンスの管理へ移行しました。一時は、Hadoopさえありました。その後、深層学習が登場し、異なる需要が生まれました。独自のハードウェアでプラットフォームを修正するのは、毎回信じられないほど困難です。

ハードウェアをクラウドへ移行したとしても、その上にソフトウェアを乗せるのは大変なことです。そこで私たちは、「私たちのビジネスはこの分野に依存しているので、常にこの分野の最先端を行くようなプラットフォームを利用したい」と考えました。当時、Googleが最も力を入れていたのがこれです。私は、BigQueryが社内の多くのユースケースのためにデータアクセスを管理していたことに感銘を受けましたが、彼らはほぼTensorFlowネイティブのプラットフォームに向かっており、その実行をより効率的にするためのチップを開発していました。それが我々の未来であり、彼らが最前線にいる可能性が最も高いと考えたのです。

Cindi:新しいデータ製品を設計する際のR&Dプロセスについて教えてください。

Ryan:まず、次のことから始める必要があります。エンドユーザーに対して何を達成しようとしているか。エンドユーザーにとって、そのエクスペリエンスはどうあるべきか。その後、考える必要があるのは、「どのデータがそれを駆動するのか」です。アルゴリズムについて考える前に、「必要なすべてのデータが揃っているか」を考えます。たいていの場合、答えは「いいえ」です。AIの多くは、データを収集し、それらを整備することにあります。 

そのために多くの時間を費やしていますが、そこではGoogleが非常に役立ちます。R&Dを行うスタッフがデータを整備し管理できるように、BigQueryや他のツールがこれを容易にしてくれるからです。Credit Karma社には、標準的な技術を適用できる高度なデータサイエンスチームがあります。データにおける障害をすべてクリアすれば、かなり迅速に概念実証を行うことができます。 

Cindi:データを上手に活用するためのプロセスや工夫はありますか?

Ryan:データレイヤーの1つ、アナリストが使用する実際のデータはクリーンでなければならいと考えています。アナリストAがある問題を調べ、さらにアナリストBがある問題を調べる場合、確実に同じデータを使用して結果を得られるようにするためには、多くの時間を費やす必要があります。データが乱雑で整理されていなければ、両者がベストを尽くそうとしても、それぞれ異なる方法でデータを引き出し、異なる結論に達してしまう可能性があります。