ケンブリッジ大学のスピンアウトTrismikは、この非常に問題に取り組むために220万ポンドのシードラウンドでステルスから出現したばかりで、人間のIQテストから借用した科学的なアプローチでそうしています。
MMLUやGSM8Kのような従来のベンチマークが飽和状態になっているとき、多くの主要なモデルが90%を超えています。 Trismikは、AI機能をどのように測定するかの再考を提供しています。
チームは、アイテム応答理論とコンピューター化された適応テスト(心理測定の基礎的方法)をLLM評価に適用しています。これは、モデルが実際にできることについて、より速く、よりスケーラブルな洞察を可能にすると主張しています。
ケンブリッジのNLP研究者であるナイジェル・コリアー教授とトリスミックの最高科学責任者によると、AIを信頼したい場合、私たちの方法は私たちのアイデアと同じくらい厳格でなければなりません。
「ベンチマークの飽和は、一般的な知識から推論、数学、コーディングまで、すべてのドメインに問題を引き起こしています。
科学者、研究者、および技術チームは、評価が重要性が爆発的になり、AIを信頼するために不可欠になっているため、圧力に直面しています。これを拡大してサポートできる評価フレームワークが必要です。」
Trismikのプラットフォームは、モデル応答に基づいて評価の難易度をリアルタイムで適応させます。これは、人間の適性テストが知能を推定するために質問セットを調整する方法と同様です。この手法により、システムは、数分の1の質問を使用して、ほぼ同一の精度ランキングを提供できます。
初期の結果は、有望な効率を示唆しています。適応テストは、テスト項目のわずか8.5%を必要としながら、0.96を超えるスピアマン相関と従来の評価ランキングと一致しました。同社によれば、これにより評価コストが最大95%削減される可能性があります。これは、モデルを評価するためだけにGPUコンピューティングに毎月6桁を費やすチームにとって大きなインセンティブです。
この科学的アプローチは、コリアー教授の数十年の研究に根ざしています。 NLPとAIで200以上の論文を公開した後、CollierはAIシステムが測定可能で説明可能で、最終的には信頼できることを保証することに焦点を移しました。 CEOのRebekka Mikkolaとの彼のコラボレーション(エンタープライズAI販売の経験を持つ繰り返し創設者)は、2023年にケンブリッジエンタープライズが支援する主要な英国の電話会社とのパートナーシップを通じて始まりました。チームは後に、CTOとして元アマゾンの科学者でありTEDXスピーカーであるMarco Basaldellaが加わりました。
EU AI法からセクター固有のコンプライアンス体制まで、地平線上に新しい規制の枠組みがあるため、正確で透明な評価の需要が激化しています。同時に、AI開発サイクルが加速し、チームにより速く出荷するよう圧力をかけながら、モデルが安全で、整列し、効果的であることを保証します。一般的なベンチマークは、これらのニーズに達していません。
Trismikによると、彼らは独自のデータ分布とドメイン固有のタスクを反映していません。さらに悪いことに、従来の評価は静的です。モデルが進化したり、目標を変えたりするにつれて、時間の経過とともに適応する方法はありません。資金調達ラウンドは、Cambridge Enterprise Ventures、Parkwalk Advisors、Fund F、Vento Ventures、Angel Network Venturesを一緒に支援するTwinpath Venturesが率いました。 a
「AI評価市場は変曲点にあります。私たちが話すすべてのAIチームは評価オーバーヘッドでownれています。これは、チームがより速く自信を持って出荷することを妨げる隠されたボトルネックになりました」
「Trismikのアプローチは、この問題を解決するために完全に異なるドメインから実証済みの科学的方法を適用するため、説得力があります。
実際に測定精度を増加させながら評価時間を2桁短縮できる場合、AI開発サイクルで可能なことを根本的に変更します。」
Trismikは、LLM評価プラットフォームをAIビルダーに展開し始めます。現在、この製品は、事実性、アラインメント、推論、安全性、およびドメインの知識に関連するデータセット間の古典的および適応的テストをサポートしており、高速実験のための軽量インターフェイスを提供しています。
同社は、LLM実験のためのより広範な環境に進化するプラットフォームを想定しています。微調整、迅速なエンジニアリング、コンプライアンス追跡、パフォーマンスの視覚化を取り入れています。
「Trismikは、世界クラスの学術的資格と実践的な業界の経験を組み合わせて、AI能力を測定する方法を定義するユニークな権限を与えた実践的な業界の経験を組み合わせて、グローバルAI開発へのケンブリッジの継続的な貢献を例示しています」
「AIの採用における極めて重要な課題を解決することにより、Trismikは大規模な信頼を促進する立場にあります。彼らの市場への旅を支援することに興奮しています。」
資本は、TrismikのAdaptive AI評価プラットフォームの立ち上げに向けられます。これは、ゆっくりと高価なベンチマークを高速で統計的に正確な評価に置き換えることを目的としています。
Trismikのプラットフォームへの早期アクセスは、7つのモデルと5つのベンチマークデータセットですでに検証されている適応テスト機能を備えたWebサイトから入手できます。チームは、今年後半にさらに技術的な結果とケーススタディを公開する予定です。エンタープライズユーザーは、2025年の終わりに向けて搭乗を開始し、2026年初頭にフルエンタープライズソリューションが発売される予定です。