Wikimedia、DataStax、Jina AI が非営利 AI 開発者向けのセマンティック検索を開始

今日ウィキメディアドイツ DataStaxとベルリンの検索専門家と共同でセマンティック検索コンセプトの立ち上げを発表しました。ジナ・アイ。

このコンセプトにより、Wikidata のオープンライセンスのデータが AI アプリケーション開発者にとって使いやすい形式で利用できるようになります。これにより、オープンソースの非営利 AI アプリケーションの開発プロセスが簡素化され、より信頼性の高い情報エコシステムの実現に貢献します。

1億1200万以上の人間と機械可読エントリである Wikidata は、開発者や社会にとって貴重なデータの宝庫です。12,000 人を超えるアクティブな編集者の継続的な貢献により、Wikidata のデータは多様で、適切に管理されています。

過去 10 年間で、大量の高品質データへのアクセスの必要性が大幅に増加しました。

特に、生成 AI には膨大な量のトレーニングデータが必要であり、多くの場合、インターネットから収集されます。

しかし、このスクレイピングには、主に大規模な商業組織で利用可能な労働力と時間リソースが必要です。これは、データ利用のための閉鎖的なエコシステムをもたらし、オープンソースの理想に反します。

Wikidata は、クラウドソースで検証された Wikidata エントリを、オープンソースの AI アプリケーション開発のためのアクセスしやすいデータソースに変換することで、このクローズドシステムのオープン化に貢献したいと考えています。

Wikidata がより多くのオープンソースの機械学習ワークフローに統合されると、情報エコシステムの品質が向上し、Gen AI のミスが削減され、LLM からの出力がより信頼できるものになる可能性があります。

長期的には、商用生成 AI プロバイダーに代わる、Wikidata のデータに基づくより信頼性の高い代替手段があれば、一般大衆が恩恵を受けることができるでしょう。

ウィキメディアドイツは、デジタル空間で自由に利用できる知識の促進に取り組んでいる、111,000 人を超える会員と 180 人の従業員を擁する非営利団体です。国際的なウィキメディア運動を代表する最大の国であり、フリーソフトウェアと無料のウィキデータデータベースを開発し、知識とデータへの無料アクセスを促進するための政治活動や教育活動に携わっています。

ウィキメディア・ドイツのソフトウェア開発責任者、ジョナサン・フレイン博士は次のように述べています。

「私たちは、私たちの価値観を共有する開発者を支援することに重点を置いています。しかし、多くの開発者はWikidataへのアクセスに苦労しており、現在の方法では、最新の生成AI開発のニーズに必要なデータ量をサポートしていません。」

現在、DataStax と Jina AI のサポートにより、Wikidata のデータはベクターデータベース内のセマンティックベクターとして変換され、AI 開発者にとってより便利なものになります。DataStax はベクターデータベースを提供し、Jina AI はテキストデータをベクター化するためのオープンソースの埋め込みモデルを提供します。」

ベクトル埋め込みは、単語やテーマの数学的表現です。単語とその意味をコンピューターが理解して使用できる形式に変換するために作成されます。大規模な言語モデルを使用してテキストを理解する場合、応答を作成する方法の一部としてこれらの埋め込みが使用されます。

ベクトル埋め込みは、検索などの操作に使用されます。ユーザーのリクエストに関連データで応答したい場合は、リクエストをベクトル埋め込みに変換し、独自のデータセットで同様のものを検索します。検索が完了したら、それらの埋め込み結果を LLM に返し、ユーザーに応答することができます。

DataStax の EMEA フィールドエンジニアリング責任者である Dom Couldwell 氏は、次のように説明しています。

「埋め込みにより、応答が改善され、ユーザーにとってより関連性の高いものになります。ただし、現在多くの開発者は独自の埋め込みデータを作成する必要があり、使用するデータが大量にある場合はコストがかかる可能性があります。

このプロジェクトでは、ウィキメディアデータのベクトル埋め込みを提供することで、生成される応答の品質が向上します。また、アクセスしてより最新の情報を入手することもできます。トレーニングに使用された古いデータに頼るのではなく、ウィキメディアの最新の更新に基づいた最新バージョンを入手できます。

データがなければ AI は存在せず、これにより開発者はより高品質なソースを利用できるようになります。」

ベクトル化により、直接的な意味解析が可能になり、ナレッジグラフにおける破壊行為の検出が容易になります。また、ベクトル化により、RAGでWikidataを使用するプロセスも簡素化されます（検索拡張生成）アプリケーションに将来的に導入される予定です。これにより、結果に最新の検証済み事実を含めることで、AI のミスを減らすことができます。ウィキメディアドイツは 2023 年 12 月にこのコンセプトの作成を開始しました。

Wikidata のポートフォリオリードプロダクトマネージャーである Lydia Pintscher 氏は、Wikidata のデータ量へのアクセスが向上することが、オープンソースの生成 AI コミュニティにとって大きな変化をもたらすと確信しています。

「高品質なデータを提供することで、私たちはコミュニティの活動と、利益を目的とせず、人類に有効な情報を提供することを意図した新しいアイデアの実現を支援します。」

プロトタイプの最初のベータテストは2025年に予定されています。

メイン画像: Wikimedia。