Last updated on octobre 24th, 2023 at 04:40 pm
OpenAI, une entreprise spécialisée dans l’intelligence artificielle, a récemment annoncé le lancement de son nouvel outil de crawl web, appelé « GPTBot« . Cette technologie vise à collecter des données provenant de pages web afin d’améliorer les futurs modèles de ChatGPT.
Qu’est-ce que GPTBot ?
GPTBot est un « web crawler » développé par OpenAI. Il s’agit d’un type de bot qui parcourt et indexe le contenu des sites web sur internet. Les moteurs de recherche tels que Google et Bing utilisent également cette technologie pour permettre aux sites web d’apparaître dans les résultats de recherche.
Selon OpenAI, GPTBot sera utilisé pour collecter des données accessibles au public sur internet. Cependant, certaines sources, telles que celles nécessitant un abonnement payant ou collectant des informations personnelles identifiables, seront exclues.
Les avantages de GPTBot pour les modèles d’IA
OpenAI affirme que les pages web collectées par GPTBot pourraient potentiellement améliorer les futurs modèles d’IA, tels que ChatGPT. Ces données supplémentaires pourraient permettre d’améliorer la précision et d’élargir les capacités des prochaines itérations.
Instructions pour exclure GPTBot pour les utilisateurs de ChatGPT.
OpenAI
L’entreprise souligne que les propriétaires de sites web ont la possibilité de refuser l’accès à GPTBot en ajoutant une commande « disallow » à un fichier standard sur le serveur.
Les projets futurs d’OpenAI : GPT-5
Le lancement de GPTBot intervient trois semaines après que OpenAI ait déposé une demande de marque pour « GPT-5 », le successeur attendu du modèle actuel GPT-4. Cette demande a été déposée auprès de l’Office des brevets et des marques des États-Unis et couvre l’utilisation du terme « GPT-5 » pour des logiciels basés sur l’IA pour la production de texte et de discours humains, la conversion de fichiers audio en texte, ainsi que la reconnaissance vocale.
Cependant, il est important de noter que le fondateur et PDG d’OpenAI, Sam Altman, a déclaré que l’entreprise n’est « nulle part près » de commencer la formation de GPT-5. Selon lui, plusieurs audits de sécurité doivent être réalisés avant de pouvoir entamer ce processus.
Préoccupations concernant OpenAI et la collecte de données
Ces derniers mois, des préoccupations ont été soulevées concernant les pratiques de collecte de données d’OpenAI, notamment en ce qui concerne les droits d’auteur et le consentement des utilisateurs. En juin, l’autorité de protection des données du Japon a émis un avertissement à OpenAI concernant la collecte de données sensibles sans autorisation. De plus, l’Italie a temporairement interdit l’utilisation de ChatGPT après avoir accusé OpenAI de violation de diverses lois européennes sur la confidentialité.
En fin juin, une action collective a été intentée contre OpenAI par 16 plaignants, alléguant que l’entreprise avait accédé à des informations privées issues des interactions des utilisateurs avec ChatGPT.
Si ces allégations s’avèrent exactes, OpenAI et Microsoft, qui a été cité comme défendeur dans cette affaire, pourraient être en violation de la loi sur la fraude informatique et les abus, qui a déjà été utilisée comme précédent dans des cas de collecte de données sur le web.
En lançant GPTBot, OpenAI cherche à améliorer ses futurs modèles d’IA en collectant des données à partir de pages web publiques. Cependant, la société a pris des mesures pour respecter la vie privée des utilisateurs en excluant certaines sources nécessitant un abonnement payant ou collectant des informations personnelles identifiables. Le développement de GPT-5, le prochain modèle d’IA, est également en cours, bien que de nombreux audits de sécurité doivent encore être réalisés.
Il est important de souligner que les préoccupations concernant la collecte de données par OpenAI ont été soulevées ces derniers mois, ce qui souligne l’importance de respecter les droits d’auteur et la confidentialité des utilisateurs. Il reste à voir comment OpenAI et d’autres entreprises similaires aborderont ces problématiques à l’avenir.