オキシラブが倫理的データ経済にどのように動力を与えているか

インターネットには、製品価格や財務データからニュース、調査、ユーザー生成コンテンツまで、膨大な量の貴重な情報が含まれています。

しかし、この情報に大規模にアクセスすることは困難です。多くの場合、Webサイトは、自動化された要求、アクセスを制限、または収集して構造化するのが難しい形式のデータをブロックします。

電子商取引、金融、サイバーセキュリティ、特に人工知能の企業にとって、これは大きな障壁を作り出します。彼らは広大で多様で絶えず更新されたデータセットが必要ですが、それらを確実に合法的に収集するためのインフラストラクチャがありません。

Oxylabsは、大規模なWebデータ収集とプロキシインフラストラクチャを提供するリトアニアのハイテク企業です。そのプロキシインフラストラクチャ、スクレイピングテクノロジー、既製のデータセットは、企業や研究者がパブリックWebを活用するための準拠した効率的な方法を提供します。

そうすることで、オキシラブは、AIのトレーニングから市場分析まで革新を促進する原料を提供するだけでなく、しばしば誤用について批判される業界で倫理基準を設定し、倫理や合法性を損なうことなくデータ駆動型の進歩が続くことを保証します。

私は、オキシラブスのチーフガバナンスおよび戦略責任者であるデナスグリバウスカスと話をしました。

Grybauskasによると、Oxylabsは2015年にデータセンターのIPアドレスをレンタルすることで開始されました。彼は語る:

「私たちはすぐに、堅牢でスケーラブルなパブリックWebデータ集約インフラストラクチャの真のニーズがあることに気付きました。したがって、私たちは開発を続けています。今日、私たちはパブリックWebデータの収集と集約に関連する多くの製品を提供しています。

世界最大のデータセットとしてのパブリックWeb

Grybauskasは、パブリックウェブは私たちが持っている最も多様で動的なデータセットであると主張します。

「公正で代表的で、グローバルに関連性のあるAIシステムが必要な場合は、パブリックWebへのアクセスがすべての人が利用できるようにする必要があります。」

今年、Oxylabsは世界初の倫理的なYouTubeデータセットを立ち上げ、AIトレーニングの作成者の同意を要求しました。 Grybauskasによると、「データセット、特にYouTubeデータセットに関しては、生成AI企業がビデオコンテンツに非常に関心があることに気付きました。」

2024年12月、YouTubeはポリシーを変更して、コンテンツクリエイターがYouTubeビデオを使用してサードパーティのAI企業がモデルをトレーニングできるようにすることを許可しました。これに応じて、オキシラブは、AIトレーニングを選択したか、クリエイティブコモンズの下でライセンスされているビデオを集約することにより、データセットを構築することを決定しました。

オキシラブが提供するすべてのデータセットには、ビデオ、トランスクリプト、リッチメタデータが含まれます。そのようなデータには多くの潜在的なユースケースがありますが、オキシラブは洗練され、AIトレーニングのために特別に準備しました。これは、コンテンツクリエイターが故意に同意した使用です。

「データでピックとシャベルを販売するゴールドラッシュ」

Grybauskasは、インターネットは個人データに関するものであるという誤解があると主張します。

「実際には、eコマースデータのような非個人情報のペタバイトがあります。それは同じくらい重要です。データセットは私たちのビジネスのごく一部です。主に、私たちはインフラプロバイダーです。ゴールドラッシュ中にピックとシャベルを販売していると冗談を言っています。」

同社はまた、イノベーションに多額の投資を行っており、100を超える特許を保有しています。 「実際、過去5年間に米国の特許を提出しているリトアニア企業を見ると、オキシラブは約30%を占めています。知的財産チームと革新を続けているエンジニアを非常に誇りに思っています」とグリバウスは語ります。

倫理的産業標準の構築

倫理的に調達されたYouTubeデータセットのリリースは、倫理的産業慣行を確立および促進するというオキシラブの長年の使命を継続しています。また、Oxylabsは、より倫理的なWebを作成し、非営利団体や調査ジャーナリストがデータをよりアクセスしやすくする作業でも際立っています。

これは、責任あるデータ集約を促進するグローバルな業界主導のグループであるEthical Web Data Collection Initiativeの創設者の1人です。ベストプラクティスを定義し、透明性を促進し、組織がデジタルエコシステムを倫理的にナビゲートするのを支援します。

Grybauskasによると、「最初のグループの企業とのイニシアチブを開始したとき、すべてのスクレイピングが悪いわけではなく、スクレイピング企業がボットネットや怪しげな慣行に関連する必要がないことを示したかったのです。」

「私たちは、受け入れられるものとそうでないものを定義する一連の原則を公開しました。

時間が経つにつれて、より多くの企業が参加に関心を示してきましたが、私たちは選択された少数しか受け入れません。インサイダーとして、どのプレーヤーが基準を満たしていなかったかを知っています。その選択性は、私たちが業界の倫理的慣行の一種の導き光になるのを助けました。」

公的な利益のためのWebデータ

同社はまた、研究者、ジャーナリスト、NGO、学術機関、および社会的インパクトミッションに従事する組織にインフラストラクチャ、専門知識、法律/技術アドバイザリーを収集するパブリックWebデータへのアクセスを提供するプロボノプロジェクト4βにも背後にあります。

それは、それをすべて自分で構築するためのリソースを持っていない可能性のある人々や組織のための高スケールのWebデータアクセスに対する障壁を下げます。それを通して、Oxylabsは、パブリックウェブデータの合法的、倫理的、および技術的側面に関する無料のマスタークラス、トレーニング、Webデータの必要性のある質問に取り組むアカデミック /パブリックインテストプロジェクトの収集と資金調達または助言に関する無料のマスタークラス、トレーニング、ガイダンスを提供します。

たとえば、オキシラブはリトアニアの環境保護局(EPD)と協力して、リトアニアのオンライン市場で違法な環境広告を検出して取り組みました。彼らは、Webクロール /スクレイピングインフラストラクチャを使用して、環境法に違反する可能性のあるリスティングを監視しました。たとえば、化学物質、保護された種などを禁止しました。これは、公的機関がWebインテリジェンスを採用して規制を実施する方法の強力な例です。

ドイツでは、Project4βは、WebスクレーパーAPIを使用して過激派の動員に関連するニュース記事やコンテンツを監視するCEMAS(監視、分析、戦略センター)と提携しました(特にプライドイベントやカウンタートロートに関する)。削られたデータは、CEMAが極右グループの行動とコミュニケーションを追跡するのに役立ちます。

倫理的なスクレイピングは、プロキシの調達方法から始まります

オキシラブのもう1つのイニシアチブは、ユーザーが未使用のインターネット帯域幅を共有することでお金を稼ぐことができるパッシブ収入アプリであるHoneygainです。

コンピューターまたは電話にインストールされると、アプリはデバイスをOxylabsのプロキシネットワークに接続します。このネットワークでは、プールされた帯域幅は、価格比較、SEO監視、広告検証、市場調査などの正当な目的で企業によって使用されます。 Honeygainは、ShadyまたはMalwareベースのネットワークに依存する代わりに、ユーザーが貢献を補償される透明なオプトインモデルを提供します。

Grybauskasは説明しました:

「当社のインフラストラクチャは、プロキシネットワーク(データセンターと住宅の両方)の両方のIPアドレスをプロキシネットワークに依存しています。一部の企業は、非倫理的なマルウェアを通じてこれらを取得します。別のパスを選択しました。

Grybauskasによると、「一部の国では、それは単なるビールのお金です。他の国では、それは収入への意味のある追加です。」ユーザーは、帯域幅の共有と引き換えに広告なしのアプリエクスペリエンスを選択することもできます。同意と報酬は、モデルの中心です。ただし、住宅委員会の観点から、Grybauskasは、会社がコンプライアンスを気にしない競合他社を心配していることを認めています。

「たとえば、ロシアのウクライナへの本格的な侵略の後、私たちはすぐにロシアのすべての顧客との関係を断ち切りました。競合他社の一部はそうではありませんでした。それは道徳的な決定でした。倫理的スクレイピングにはチェーン全体が含まれます。