ほとんどのAIは、合成データの革新を進めるために10万ドルの課題を開始します

オーストリアの合成データスタートアップ 主にai 最高の合成を作成するために100,000ドルの賞金チャレンジを開始しました データセット 本物から データセット

挑戦 誰にでも開かれています そして誰でも。申請者はそうします 判断されます データがどのように匿名であるかについて、元のデータ、使いやすさ、および計算効率を正確に反映しています。目標は、合成データ分野で非常に必要なイノベーションを刺激することです。 勝者のコードはオープンソーリングされます その後、公的に使用するために。

ほとんどのプライバシープレゼント 合成データプラットフォーム 機密情報を公開せずに実際のデータを模倣します。これは、市場で最も正確なものの一部として認識されている高忠実度の出力で、高度なAIおよび機械学習アプリケーションに適しています。

ほとんどのプラットフォームにより、組織は機密データ資産へのアクセスのロックを安全に解除し、このデータがAIイノベーションを促進する可能性を最大限に発揮し、その際に履歴データの匿名化の問題に対処することができます。

同社は、オーストリアで最も資金提供されている新興企業の1つであり、持っています 上げられた 2022年には2,500万ドル。 同社は、を含むグローバルクライアントをサポートしています。シティ銀行、国土安全保障省、およびERSTEグループ。彼らは最近 オープンソース 彼らのコアテク製品 空間の理解と革新を促進する。

私は、より多くを学ぶために、ほとんどがAIの主任AI&データ民主化責任者であるAlexandra Ebertと話をしました。

Ebertによると、会社は大胆なことをしたかった – 「そうではない何か 本当に 行われました 過去20年間で、少なくともこの規模ではありません。」

「最後に似たことが起こったのは Netflix賞、100万ドルの報酬を提供しました。 Netflixではありませんが(まだ!)、アイデアは似ています。合成データを使用してイノベーションを刺激することです。」

より良い合成データの必要性

AIが下に来ます もっと データプライバシーの支持者、大企業、スタートアップからのプレッシャーは、AIモデルを訓練および通知するために合成データにピボットしています(Nvidiaは、SDスタートアップを3億2,000万ドルで買収しました)。 政府はそうです クロッキング の上 あまりにも例えば それは英国政府のもので言及されています AI機会アクションプラン

Ebertによると、合成データには大きな可能性があります。 ビジネス、 しかし、社会のために 全体的に

「それは、医療研究、気候の洞察を加速し、粒状の関連性のあるプライバシーに安全なデータにアクセスできるようにすることで、スタートアップや小規模なプレーヤーのイノベーションを開放するのに役立ちます。

目標は、将来、より多くの競争を促すことです。そこでは、合成データが意味のあるデータセットをよりアクセスしやすくする上で中心的な役割を果たすことができます。それは、私たちがのようなプラットフォームで見られる非現実的な「おもちゃデータセット」から遠ざかることです Kaggle、 現実世界の複雑さと価値にずっと近いものに向かって。」

参加者はどのようなデータを使用していますか?

競争 用途 現実世界のデータ 公開されていますが、広く知られていません – それで その 典型的なKaggleよりも現実的です データセット、 しかし まだアクセス可能です。

Ebertによると、「リバースエンジニアリングを防ぐために、「Cat」や「Dolphin」などの楽しいプレースホルダーにいくつかの列名を置き換えることで、データセットを軽くマスクしました」。

2つの独立した課題があります。

  • フラットデータチャレンジ 用途 静的データ(たとえば、顧客レコード、エントリを考えてください しないでください 変化 多くの)。
  • シーケンシャルデータチャレンジ 用途 シーケンシャルデータ(のように 金融取引またはモバイルロケーションパターン)、これは大幅に複雑です。

それで 遠い 競争があります 見た 学生からの特別な関心と 人々 彼らのコンピューターサイエンスのキャリアの初期段階、特に地域から のように グローバルサウス。

$100k 賞品プールは、メタまたはAWSの一流のデータサイエンティストを引き付けることはできません、それは 大きい 新興の才能のために世界的に描きます。

Ebert詳細:

「2つの主要な適格ルールのみがあります。参加者は、競争の開始前に(複数のアカウントでシステムをゲームする人を避けるために)GitHubアカウントを作成する必要があります。 考慮されます リーダーボードのために。」

ほとんどの場合、Static Data Challengeの強力な提出物をすでに見てきましたが、シーケンシャルなものはより技術的に要求が厳しいですが、「それは広く開いています。各トラックにはまだ5万ドルがあります。

審査員は提出物で何を探していますか?

プライバシーと正確性に加えて、各チャレンジの上位5つの提出も 評価されます 創造性、使いやすさ、 一般的な環境

Ebert詳細:

「私たちは、データセットに過度にフィットするソリューションを探しているだけではありません。ドメイン全体で役立つアイデアが必要であり、合成データの幅広いアプリケーションを刺激することができます。」