ロボット工学にはデータの問題があります。 Macrodata Labs はそれを解決したいと考えています

AI 業界は過去数年間、より優れたデータがより優れたモデルと同じくらい重要であるという重要な教訓を学んできました。大規模言語モデルの進歩は、ますます洗練されたデータセットとデータパイプラインによって推進されていますが、ロボット工学はまだ同じ変革を経験していません。ロボット工学チームは、膨大な量のビデオ、センサーデータ、デモンストレーションを扱っていますが、そのデータの処理、注釈付け、改善に必要なインフラストラクチャの多くは未熟なままです。

Macrodata Labs は、このギャップを埋めることがロボット AI における最も重要な課題の 1 つになる可能性があると考えています。 Macrodata Labs は最近、ステルスから脱却し、ロボティクスデータセットを処理するためのオープンソースフレームワークおよびクラウドプラットフォームである Refiner を立ち上げました。

同社は今年6月、ロボットデータループのインフラストラクチャを構築するためにプレシード資金で400万ドルを調達した。このラウンドは Air Street Capital が主導し、Drysdale Ventures、OPRTRS クラブ、Kima Ventures、YG (Alex Yazdi)、>commit、Thomas Wolf、および世界有数の AI ラボやテクノロジー企業のビジネスエンジェルが参加しました。

Macrodata Labs は、ロボティクスデータループのインフラストラクチャを構築します。その最初の製品である Refiner は、ロボティクスデータ処理用のオープンソースフレームワークおよびクラウドプラットフォームであり、チームが生の物理世界データをより優れたトレーニングデータセットに変換するのに役立ちます。

さらに詳しく知るために、CEO 兼共同創設者の Guilherme Penedo に話を聞きました。

LLM データセットの構築からロボティクスインフラストラクチャの構築まで

Macrodata Labs は、Guilherme Penedo と Hynek Kydlíček によって設立され、Hugging Face の最大のオープン LLM データセットの取り組みのいくつかを支えるコアチームを形成しました。彼らは、FineWeb、FineWeb2、FinePDFs、FineTranslations などの広く使用されているデータセットを作成し、NVIDIA、Google、AI2、Z.ai のチームによって使用され、Open-R1 や SmolLM などの大規模なトレーニングプロジェクトに貢献しました。

Penedo は、リリース当時最強のオープンソースモデルの 1 つである Falcon を支えるチームの一員でした。その後、Hugging Face に入社し、AI モデルをトレーニングするための大規模なデータセットの構築に注力しました。

「そこで、私の共同創設者である Hynek Kydlíček と出会いました。私たちは、インターネットの大部分を処理し、データを高品質のトレーニングデータセットに変換する FineWeb などのプロジェクトで協力しました。FineWeb は、言語モデルのトレーニングに最も広く使用されているオープンデータセットの 1 つとなり、その後、その作業を PDF や多言語データセットなどの他の分野に拡張しました。」

彼らの仕事全体に共通するテーマは、大量の生データを取得し、それをより優れた AI モデルを生成できるものに変換する方法を見つけることでした。 Hugging Face で大規模なデータセットを構築しているときに、創設者らは、モデルアーキテクチャやコンピューティングに関する進歩だけでなく、トレーニングデータを大規模に収集、変換、検査、反復するために必要なインフラストラクチャに関しても進歩していることに気づきました。

データインフラストラクチャの改善が LLM の進歩にどのように役立ったかを見た創設者らは、ロボット工学も同様の変曲点に近づいていると信じています。

なぜより優れたモデルではなく、より優れたデータがロボット工学の可能性を拓くことができるのか

LLM とビジョン言語モデル (VLM) の進歩によりロボットの能力はますます高まっていますが、ロボット工学を支えるデータ層は未開発のままです。物理世界のデータはテキストよりも大きく、乱雑で、断片化しているため、有用なトレーニングデータセットに変換するのがはるかに困難です。ペネド氏はこう説明した。

「言語モデルでは、生のデータを一貫して高品質の結果を生み出すデータセットに変換することがいかに難しいかを学びました。ロボット工学は同じ課題の多くに直面していますが、その規模はさらに大きいことに気づきました。」

Penedo 氏によると、主な違いは、言語モデルのデータ処理タスクの多くは比較的単純なルールで処理できるのに対し、ロボット工学でははるかに多くの解釈が必要になることです。

「人間がタスクを実行する様子を映した何百時間ものビデオがあるかもしれませんが、そのデータがロボットのトレーニングに役立つようになる前に、現場で何が起こっているのかを理解する必要があります」と彼は言いました。

「たとえば、誰かが皿を洗っている場合、皿を持ち上げる、石鹸をつける、すすぐなど、個々のサブタスクを特定する必要があります。また、手の位置を推定し、動作を推測し、人間の動きをロボットの同等の動きにマッピングする必要がある場合もあります。」

この課題は、アクションの理解だけにとどまりません。ロボティクスデータセットは、ビデオ、センサーストリーム、軌跡、その他のマルチモーダルな入力を組み合わせて、保存、処理、標準化が困難な大規模で複雑なデータセットを作成します。さまざまなロボット企業が独自のデータ形式やワークフローを使用していることがよくありますが、どのデータを収集し、どのように注釈を付ける必要があるかについては、多くの疑問が未解決のままです。

「私たちはロボット工学が AI の次の主要なフロンティアであると信じています」とペネド氏は言います。

「大規模な言語モデルと視覚言語モデルで見てきた進歩により、現在では新世代のロボットシステムが可能になっています。同時に、ロボット工学は、言語モデルを変革したのと同じスケーリング原理からますます恩恵を受けています。つまり、より良いデータがより良いモデルにつながります。」

その結果、データがトレーニングに役立つようになるまでに、データのラベル付け、注釈付け、フィルタリング、および強化にかなりの量の作業が必要になります。

「これらの制約により、ロボット工学におけるデータの作業が特に重要になります」とペネド氏は言います。

「チームは、実施形態、センサー、データ形式、ラベル付け方法を変更するたびにデータスタックを再構築することなく、デモンストレーションを処理し、新しいアノテーションをテストし、データセットを反復処理できるように、スケーラブルで信頼性の高いツールを必要としています。」

ペネド氏は、この業界はまだ初期段階にあり、多くの企業がより多くのデータの収集、モデルアーキテクチャの改善、より優れたハードウェアの構築に多額の投資を行っていると警告します。

「これらのことは重要ですが、既存のデータの品質向上には比較的ほとんど注意が払われてきませんでした。現代の AI システムではその作業の多くを自動化できるにもかかわらず、多くのチームは依然として注釈付けとデータ準備の手動プロセスに依存しています。現在収集しているデータは、複数世代のモデルやアーキテクチャにわたって価値があり続ける可能性があります。

だからこそ私たちは、データ処理のインフラストラクチャがスタックの最も重要な部分の 1 つであると考えています。」

Refiner: ロボティクスデータループのインフラストラクチャ

ロボティクス企業はハードウェア優先の組織であることが多いですが、Macrodata Labs は、ソフトウェア層、特にデータ層がこれらのシステムの能力を最終的に決定するものであると考えています。 Refiner は、ロボットデータセットを処理するためのオープンソースフレームワークを提供します。これにより、ロボット工学チームはデータを取り込み、デモンストレーションを処理し、ハンドトラッキング、サブタスクの注釈、報酬モデルのスコアリングなどのワークフローを実行できるようになります。このフレームワークは、幅広いロボットデータ形式をサポートし、単一のパイプライン内で、軌跡、カメラストリーム、センサーデータ、注釈などのマルチモーダルなロボットエピソードを処理できます。

クラウドストレージと直接連携するように設計されているため、チームは最初にローカルにダウンロードせずに大規模なデータセットを操作できます。ペネド氏はこう説明した。

「ユーザーは、作業を開始する前にテラバイト規模のデータをローカルにダウンロードする必要はありません。Refiner はクラウドストレージからデータを直接ストリーミングし、効率的に処理し、分散インフラストラクチャ全体でワークフローを実行できます。」

Refiner は GPU ベースの処理もサポートしています。これは、ロボティクスデータパイプラインが注釈、理解、評価などのタスクで AI モデルに依存しているため、ますます重要になっています。より広範な目標は、チームがさまざまなロボット、センサー、ワークフローにまたがって作業できる柔軟性を提供しながら、ロボットデータインフラストラクチャをよりアクセスしやすく、スケーラブルにすることです。

ホストされた Macrodata Labs プラットフォームを通じて、ユーザーはワークフローを書き直すことなく、ローカルの Python 実行からマネージドクラウドコンピューティングまで同じパイプラインを拡張できます。このプラットフォームは、オーケストレーション、スケジューリング、CPU および GPU ワーカー、データのトレーサビリティ、障害回復、および可観測性を処理しますが、顧客は使用したコンピューティングリソースに対してのみ料金を支払います。同社は現在、モデルをトレーニングしてロボットシステムを構築するロボット企業に注力している。

ペネド氏は、時間の経過とともに市場は拡大すると予測しています。

「ロボット工学モデルの機能が向上し、利用しやすくなるにつれ、より多くの組織が既製のロボットを購入し、特定のタスクに合わせて微調整するようになると予想されます。その時点で、私たちはそれらの顧客がどのようなデータを収集する必要があるか、モデルを環境に適応させる方法を理解できるように支援できます。しかし、今日の主な顧客は、基盤となるロボット工学システムを構築するチームです。」

ステルスでロボット工学のスタートアップを構築する

ステルスで会社を設立するチームがどのようなものなのか興味がありました。ペネド氏は、確かに課題があったことを認めた。

「ステルスで活動していると、人々はあなたをオンラインで簡単に検索したり、あなたが何をしているのかを検証したりすることができません。つまり、潜在的な顧客やパートナーは扱うべき公開情報をあまり持っていないため、紹介や個人的なネットワークがより重要になります。とはいえ、私たちは長期間ステルス状態を続けるつもりはありませんでした。」

目標は単に、製品の最初のバージョンを構築し、核となるアイデアを検証し、公開する前に初期のユーザーと協力し始めるために数か月を費やすことでした。」

なぜヨーロッパはロボット工学の次の波をリードできるのか

マクロデータは技術的には米国企業として組織されており、主に資金調達のためだが、本拠地はフランスにあり、欧州がロボット工学の主要勢力になることを望んでいる。欧州はAI分野で米国に後れをとっているとよく言われているが、ペネド氏はロボット工学は欧州が高い競争力を維持できる分野の1つだと考えている。

「チューリッヒ工科大学とそのエコシステムから新興する企業によって、チューリッヒ周辺に強力なクラスターが見られます。ミュンヘンももう一つの主要な中心地です。より広範に言うと、ヨーロッパは高度に工業化されたままであり、大規模な製造基盤を有しており、ロボット工学のイノベーションに対する実際の需要を生み出しています。それがヨーロッパに、この次のAIの波で重要な役割を果たす機会を与えています。」

Macrodata Labs の当面の焦点は、ユーザーによる Refiner の導入を支援し、ロボット工学コミュニティからのフィードバックを収集すると同時に、より優れたデータパイプラインでモデルのパフォーマンスを向上させる方法の研究に多額の投資を行っています。「私たちはロボットのデータ処理をより効率的にするだけでなく、より優れたデータパイプラインが実際にモデルのパフォーマンスをどのように向上させるかを探求したいと考えています。つまり、新しいアプローチをテストし、モデルをトレーニングし、実際のロボットシステムで実験を実行し、私たちの方法がより良い結果をもたらすかどうかを継続的に測定することを意味します」とペネド氏は語った。