Alexandra Ebertには、おそらくこれまでで最もクールな役職があります。これは、AIチーフとデータの民主化責任者です。
機械学習の修士号とGDPRにより、Ebertは彼女の役割に深い専門知識をもたらし、IEEE Synthetic Data IC Expert Group(IEEE Standards Association)の議長も務め、Data Democratization Podcastを開催します。
彼女の修士号に続いて、彼女は、組織が元のデータの統計的特性を保持する完全に匿名のデータセットを作成できる合成データ会社である主に(2017年設立)で働き始めました。
そのプライバシー普及 合成データプラットフォーム 機密情報を公開せずに実際のデータを模倣します。これは、市場で最も正確なものの一部として認識されている高忠実度の出力で、高度なAIおよび機械学習アプリケーションに適しています。
ほとんどのプラットフォームにより、組織は機密データ資産へのアクセスのロックを安全に解除し、このデータがAIイノベーションを促進する可能性を最大限に発揮し、その際に履歴データの匿名化の問題に対処することができます。
同社は最近、最初の業界グレードのオープンソース合成データツールキット(SDK)を立ち上げ、あらゆる組織が機密性のある専有データから高品質のプライバシーセーフ合成データセットをすべて独自のコンピューテインフラストラクチャ内で簡単に生成できるようになりました。
しかし、それが提供するものを掘り下げる前に、それが必要な理由を探りましょう。
データ匿名化技術の問題
エバートによると:
「多くの匿名化技術がありますが、研究者はプライバシーが安全であり、GPRに準拠していないという今では何十年も叫んでいますが、驚くべきことに現在使用されています。」
マスキングや難読化などの従来の方法は、小さなデータの時代に属します。過去には、組織は顧客ごとに少数のデータポイントにのみアクセスできました。おそらく、基本的な人口統計の詳細といくつかのアカウント情報でした。これらの手法は、元のデータセットに適用すると、本質的に破壊的でした。」
たとえば、顧客データテーブルを備えた銀行は、黒いマーカーを使用して姓や社会保障番号などの繊細な詳細を編集する場合があります。
トランザクションの詳細も変更できます。スターバックスのコーヒーは、7ドルとしてはなく、5〜10ユーロまたはポンドの推定範囲としてリストされる場合があります。
「目標は、データを十分に匿名化されるまで曖昧にすることでした。
しかし、研究は、このような方法がビッグデータの時代では効果がないことを繰り返し実証しています。今日、大企業は通常、顧客ごとに数千または数万人のデータポイントを保有しています。
たとえば、クレジットカードの取引では、商人と3つの別々のトランザクションの日付だけを知っていることで、80を再識別するのに十分な場合があります パーセント 顧客の。」
Ebertによると、もう1つの問題は、「AIはデータで繁栄しています。組織が元々顧客ごとに10,000のデータポイントを持っていたが、 だった 匿名化のためにわずか3〜5に減少すると、データセットの全体的な値は大幅に減少します。
これによりジレンマが生まれます。企業には洞察と革新のために高品質のデータが必要ですが、従来のプライバシー保護方法はその有用性を損ないます。」
合成データの値
既存のデータセットから情報を変更、マスク、または削除する従来の手法とは異なり、ほとんどの合成データプラットフォームは生成AIを活用して、データの構造、パターン、および関係を分析および理解します。
「簡単に言えば、AIモデルは、特定の銀行、通信プロバイダー、または健康保険会社の顧客が時間の経過とともにどのように振る舞うかを学ぶことができます。
たとえば、朝にスターバックスを訪れた顧客が、昼食のために食事をするか、その日の後半にアマゾンで購入するかどうかを判断できます。これらの行動パターンは自動的に検出および複製され、プライバシーを確保しながらデータの統計的完全性を維持できます。」
たいてい AIの技術には、個人的な秘密が学習または保持されないようにするための包括的な一連のプライバシーメカニズムが組み込まれています。 AIは、ユニークな識別可能な個人の包含を妨げながら、非常に細かいレベルで一般化可能なパターンを抽出します。
Ebertの詳細:
「たとえば、データセットに非常に特徴的な個人(ビルゲートなど)が含まれている場合、特に米国と比較してオーストリアなどの億万長者が少ない地域では、プライバシー違反を防ぐために除外されます。
同様に、非常にまれな疾患のある人が5人しかいなかった場合、プライバシーを保護するために削除されます。
ただし、プライバシーを確保しながら、より大きなグループ(例えば20、30、または50個の個人)に特性が表示される場合、そのパターンを保持できます 保護。「
このプロセスには、3つの重要なステップが含まれます。
- 高度なAI主導の学習、
- 一意に識別可能な個人を除外する厳格なプライバシーメカニズム、
- 元のデータセットを変更またはシャッフルすることなく、合成データをゼロから作成する完全に個別の生成プロセス。
これにより、プライバシー保護と貴重な統計的洞察の保存の両方が保証されます。
Mostyは、ヨーロッパ、北米、アジアのフォーチュン100企業と協力しており、発売以来3,100万ドルを調達しています。顧客には、シティバンク、米国国土安全保障省、ERSTEグループ、テレフォニカ、および5つの最大の米国銀行のうち2つが含まれます。
プライバシーセーフ合成データを作成するための世界初のオープンソースツールキット。
ほとんどのツールキットの一部として、合成データSDKはスタンドアロンPythonパッケージとして入手できます https://github.com/mostly-ai/mostlyai 完全に許容されるApache V2ライセンスの下。さらに、使いやすいです。
エバートは共有しました:
「当時、レガシーの匿名化により、専門家になる必要があるため、テクノロジーが非常に簡単に動作できることを保証します。ほとんどがAIでは、プライバシーを保護する方法を決定する必要はありません。
メカニズムは、完全な匿名性を確保するために、あなたが入れた特定のデータセットに対して自動的にアクティブになります。」
ただし、エバートによれば、組織はAIとイノベーションでの広範なデータの使用を目指していますが、データはほとんどの従業員にはサイロ化され、アクセスできないままであり、ゲートキーパーには共有の動機が不足しています。
「過去には、データアクセスはケースバイケースで処理されていました。企業は、低品質のトレーニングデータのためにパフォーマンスが低い顧客チャーンモデルの改善など、特定の課題で私たちにアプローチします。
GDPRなどの厳格な規制により、生産データへのアクセスが妨げられたため、プライバシーに準拠した高品質の合成データセットを探しました。」
今日、このシフトは企業全体のデータ民主化に向かっており、すべての従業員がAIを効果的に活用できるようにし、エグゼクティブが技術チームとマーケティング、販売、その他のビジネスユニットを強化することを目指しています。
オープンソースの値
Ebertによると、オープンソースは、データを民主化するという主にの使命において重要な役割を果たしています。
「データを民主化することは常に私たちの使命であり、これは非常に重要なリソースであり、企業だけでなく社会全体でもデータアクセスを開く必要があると信じています。」
主に「Ginormous」Fortune 100企業と連携しており、オープンソースの技術を使用すると、顧客はあらゆる環境に展開し、テストしてから組織内で有機的に成長することがはるかに簡単になります。
エバートは主張します:
「私たちは、AIが世界を救い、癌を治し、一日中気候危機に取り組むのを助けることについて話すことができます。 あなたは行くつもりはありません 一般の人々、NGO、および研究者にデータを開き、願望は現実にはなりません。
大企業の大企業である大企業内でデータが蓄積されている場合、彼らは常に営利の動機を持っており、私たちは社会的進歩にAIを実際に使用しません。
たとえば、私たち また 主要な医療提供者とより密接に統合したい、そしてオープンソースはそこで役立ちます。」
合成データがスタートアップのイノベーションとエンタープライズコラボレーションをどのように促進するか
Ebertによると、心のAI倫理学者であることは、責任あるAIの慣行(透明性、公平性、プライバシー)が最初から発明に組み込まれ、後付けとして扱われないことを保証することを意味します。
彼女は、企業向けの製品を開発している多くのスタートアップが彼らのものを欠いていると指摘しています 自分の データセット、および「従来の方法は、不完全で不安定な「スイスチーズ」匿名のデータセットを生成するのに数か月かかる場合があります。」
「従来の匿名化方法には数ヶ月かかりますが、完全に安全でない可能性のある不完全で価値の低いデータセットになります。合成データは、このプロセスをわずか1〜2営業日に減らし、企業がデータを迅速かつ安全に共有できるようにします。「
彼女は、スタートアップが合成データを積極的に要求する必要があることをアドバイスしています。
「銀行が金融取引の合成バージョンを提供する場合、両当事者は利益をもたらします。スタートアップはより良い製品を構築でき、銀行はより効果的なイノベーションを獲得します。
彼らはより良い製品を開発することができ、スタートアップの革新をもたらすことに関心のある企業は、常にそれを検証するためにデータを必要とします。」