Même OpenAI est poursuivi pour violation présumée des droits d’auteur, ils ont donc également annoncé le GPTBOT pour une option de désinscription pour les éditeurs. Le modèle LaMDA LLM de Google’s Bard utilise 50% de son ensemble de données à partir de forums publics tels que Wikipédia et d’autres sites Web. Pour former le modèle d’IA, Google scrape les éditeurs numériques pour générer du texte, des vidéos et des images quotidiens. La société a déclaré que toute personne qui ne souhaite pas que son site Web soit scrapé par l’IA peut se désinscrire. Une fois que vous confirmez, Google cessera de scraper votre site Web.
Les sites Web peuvent se désinscrire du scraper de Google pour former l’IA
Cela fait suite à la récente proposition du gouvernement australien d’interdire les applications d’IA à haut risque, qui incluent les applications d’IA qui créent des deepfakes, de la désinformation et de la discrimination. Auparavant, Google avait demandé l’utilisation équitable des systèmes d’IA par le gouvernement australien, mais c’est la première fois que Google propose une option de désinscription pour les éditeurs.
Le scraper de Google est activé par défaut, ce qui signifie que la société copiera les sites Web pour former ses modèles d’IA à moins que les éditeurs ne se désinscrivent de force du scraper. La société n’a pas explicitement précisé comment cela fonctionnera, mais Google dispose de protocoles standard sur la manière dont les éditeurs Web peuvent participer en ligne. Cependant, la société a souligné que les éditeurs doivent modifier leurs fichiers robots.txt pour empêcher Google de scraper leurs sites Web. Cela est assez similaire à l’OpenAI GPTBOT.
OpenAI a partagé des codes à exécuter, mais Google n’a pas partagé de code pour modifier robots.txt afin d’empêcher Google de scraper les sites Web. Robots.txt fonctionne mieux avec les bots, car il ne s’agit pas seulement du site Web mais aussi de l’ensemble du site Web. La plupart des données que Google et OpenAI scrapent proviennent de Wikipédia, de publications Reddit, d’articles, de livres et d’autres textes en ligne. OpenAI a utilisé 45 To de données pour développer son modèle d’IA GPT-4 dans ce contexte.
Le vice-président de la confiance de Google a déclaré que Google évoluera avec l’émergence de l’IA pour protéger les droits des éditeurs. Selon les experts, le droit d’auteur deviendra l’un des plus grands problèmes pour la prochaine génération d’intelligence artificielle générative.
Google collecte et utilise des données publiques pour améliorer son IA.
Google a sorti son chatbot IA appelé Bard Chatbot en mai, mais il semble similaire au modèle GPT-2. Il est moins raffiné ou meilleur que l’OpenAI ChatGPT ou le Bing AI Chatbot. Depuis lors, Google essaie de copier autant de données que possible, rendant son modèle d’IA plus précis et meilleur. Non seulement cela, mais Google a également fusionné ses deux divisions d’IA en Deepmind pour travailler sur des modes d’IA générative avancés. Google a récemment modifié sa politique de confidentialité qui permet explicitement à la société d’utiliser tout ce que vous publiez en ligne pour développer des outils d’IA.
Jusqu’à présent, Google a secrètement collecté des données sur Internet. Il a également été souligné que la décision de Google violait les droits et lui donnait un avantage injuste par rapport à ses concurrents, qui obtiennent ou achètent légalement des données pour former leur IA. Pour cela, Google pourrait devoir payer plus de 5 milliards de dollars de dommages et intérêts. Avant cela, Google OpenAI a également été poursuivi pour une affaire similaire de collecte de données présumée.
Google collectera, rassemblera et utilisera des informations personnelles et analysera des données publiques pour former son modèle d’IA. Cela est nécessaire pour être pertinent dans l’industrie. L’IA de Google est déjà moins fiable que d’autres concurrents comme le chatbot IA de Microsoft, Bing. Cela signifie également que les utilisateurs doivent être plus prudents quant aux données qu’ils partagent. Malgré les avantages, l’IA présente de nouveaux défis que nous devons surmonter pour construire un avenir réactif.