OpenAI gagne du terrain dans la course au scraping web

OpenAI gagne du terrain dans la course au scraping web

Technologie d'intelligence artificielle robotique apprentissage intelligent à partir de bigdata
La bataille entre les entreprises d’IA et les éditeurs web pour le contrôle des données semble connaître un tournant. OpenAI, en particulier, enregistre des progrès significatifs : ses robots d’exploration web, autrefois bloqués par de nombreux médias importants, rencontrent désormais moins de résistance.

Le boom de l’IA générative et la protection des données

L’essor de l’IA générative a déclenché une ruée vers les données, suivie d’une vague de mesures de protection de la part des éditeurs. Nombre d’entre eux ont utilisé le fichier robots.txt pour bloquer les robots d’exploration d’IA, soucieux de protéger leur contenu et de contrôler son utilisation pour l’entraînement des modèles d’IA.

A lire aussi : L'Arménie, Hub Technologique en Pleine Expansion, Accueille le WCIT 2024

L’arrivée de nouveaux robots d’IA, comme celui d’Apple, a exacerbé les tensions. De nombreux médias ont rapidement bloqué l’accès à leurs données, créant un véritable jeu du chat et de la souris entre les entreprises d’IA et les éditeurs.

Avez-vous vu cela : La mise à jour surprenante d'Apple rend l'iPhone plus similaire à Android

GPTBot d’OpenAI : un robot sous surveillance

Le robot d’exploration d’OpenAI, GPTBot, est devenu une cible privilégiée des éditeurs. Selon une analyse d’Originality AI, une startup spécialisée dans la détection d’IA, le nombre de médias bloquant GPTBot a augmenté significativement entre août 2023 et avril 2024, atteignant un pic à plus d’un tiers des sites analysés.

Cependant, la tendance s’est inversée depuis mai 2024, suite à une série d’accords de licence conclus entre OpenAI et des groupes de médias comme Dotdash Meredith, Vox et Condé Nast. Le taux de blocage a diminué de manière significative, passant de près de 90% à un peu plus de 50% pour les médias les plus importants.

Des accords stratégiques pour débloquer l’accès aux données

Les accords de licence conclus par OpenAI ont permis de débloquer l’accès aux données de plusieurs médias importants. Ces derniers, n’ayant plus d’intérêt à bloquer les robots d’exploration, ont mis à jour leurs fichiers robots.txt pour autoriser l’accès à GPTBot.

Certains médias, comme The Atlantic, ont réagi immédiatement après l’annonce d’un accord. D’autres, comme Vox, ont mis quelques semaines à adapter leurs paramètres.

Le respect du fichier robots.txt : une norme essentielle

Bien que non juridiquement contraignant, le fichier robots.txt est une norme largement respectée dans le monde du web. Il permet aux propriétaires de sites de contrôler l’accès des robots d’exploration à leurs données.

L’incident impliquant Perplexity, une startup d’IA accusée d’avoir ignoré les directives du fichier robots.txt, illustre l’importance de respecter cette norme. L’enquête menée par Amazon Web Services souligne les conséquences potentielles d’un tel comportement.

OpenAI : une stratégie axée sur la collaboration

OpenAI, conscient de l’importance du fichier robots.txt, s’engage à respecter les directives des éditeurs. Cette stratégie de collaboration est essentielle pour garantir l’accès aux données nécessaires à l’entraînement de ses modèles d’IA.

Selon Jon Gillham, PDG d’Originality AI, les efforts d’OpenAI pour conclure des accords de licence témoignent de l’importance qu’elle accorde à l’accès aux données. «  »Il est clair qu’OpenAI considère le blocage comme une menace pour ses ambitions futures » », affirme-t-il.

Share