Le New York Times attaque Open AI et Microsoft

Florian Innocente |

Il y a quelques jours, le New York Times révélait qu'Apple est en négociations avec plusieurs médias américains — le quotidien ne se comptait pas parmi eux — pour un droit d'accès à leurs contenus afin d'entrainer son moteur d'intelligence artificielle.

Il n'y avait pas de précisions sur les intentions d'Apple — peut-être que celle-ci veut rendre Siri plus au fait de l'actualité — quoi qu'il en soit, cette démarche est de nature à lui éviter des problèmes par la suite. C'est le cas aujourd'hui pour Microsoft et OpenAI, attaqués en justice par le New York Times, pour infraction au droit d'auteur.

Le siège du New York Times. Crédit : MacGeneration.

Le vénérable titre leur reproche d'avoir utilisé plusieurs millions de ses articles pour entrainer les modèles de langage d'OpenAI, utilisés notamment par Bing et ChatGPT. La plainte n'indique pas le montant des dommages et intérêts réclamés, cependant le Times estime que ce coût est de l'ordre de plusieurs milliards de dollars.

Ces contenus ont été exploités sans autorisation et ils servent aujourd'hui aux réponses fournies par les chatbots de deux sociétés partenaires. Dans certaines, détaille la plainte, les réponses reprennent quasi intégralement des contenus du New York Times sujets à un abonnement payant, rendant facultative toute visite sur le site du quotidien pour en obtenir plus. Microsoft et OpenAI auraient par ailleurs capitalisé sur le recours à ces articles, eu égard à la réputation du quotidien.

Dans d'autres cas, avec Bing par exemple et sur des articles de la section de conseils et de tests de produits du New York Times (Wirecutter), il arrive que les extraits ne soient pas sourcés. Qui plus est, les liens vers les sites marchands grâce auxquels Wirecutter dégage des commissions sont supprimés dans les réponses retournées. Plus gênants encore, des articles dûment attribués au Times contiennent parfois une majorité d'éléments absents de l'article source. Cela a pu être constaté après des questions liées à l'alimentation pour lutter contre les maladies cardiovasculaires.

Le New York Times, Microsoft et OpenAI ont eu des discussions en avril, à l'initiative du premier, pour s'accorder sur un règlement à l'amiable. Une solution qui aurait pu prendre la forme d'une licence et d'une définition de garde-fous techniques. Rien n'en est sorti. Ni Microsoft ni Open AI n'ont encore réagi à cette plainte.

En juillet dernier, l'agence de presse AP a signé un accord de licence avec Open AI. L'éditeur allemand Axel Springer a fait de même ce mois-ci. Les termes de ces contrats n'ont pas été dévoilés.

avatar ataredg | 

Open AI a peut etre utilisé des données privées, mais il a fait avancer la science et a changé le monde. Vous pouvez jouer les vierges effarouchés et perdre votre temps à hurler avec les loups, mais l'IA est là. Et avec ou sans vous, elle va tout changer. Les américains vont trouver un accord. Et vont continuer à innover. Les chinois vont piller le boulot. Et nous on va tenter de réguler et d'imposer des comités théodules, des conneries inutiles (RGPD, cookies notices, etc...) mais on restera dans le fond du classement. Tout ça, parce qu'on nous baigne dans l'idée que le futur est mauvais, que la science joue contre nous et que le pessimisme est la norme. Loosers donc. Bonne année.

avatar iVador | 

@ataredg

Pitoyable post

avatar ataredg | 

@iVador : Pour te déplaire. Bisous.

avatar Mac1978 | 

@iVador

+1

@ataredgn semble être atteint de « scientisme » aigu, tout comme avoir une fois inébranlable dans la loi de la jungle. Mais de tout temps la science a dû être encadrée afin d’en tirer davantage de positif que de négatif.

Les modèles d’IA ne sont rien sans données, et ceux qui ont créé ces données pendant des années ont des droits, ça s’appelle des droits d’auteur.

La dérive des réseaux sociaux et de leurs « fake news » nous rappelle quotidiennement que l’IA a un besoin urgent d’encadrement, et les auteurs de voir payé leur travail.

avatar ckermo80Dqy | 

@Mac1978

+1

avatar franckmac3 | 

@ataredg

OpenAI a « fait avancer la science et a changé le monde » 🙄
Avec Chat GPT et Dall-e ?
Ils ont juste utilisé des travaux d’autres chercheurs et lancé la pompe aspirante sans respect de propriété intellectuelle avec l’aide de l’infrastructure de Microsoft !
Zéro avancée de la science et pour ce qui est de changer le monde on va attendre un petit peu 🤪

avatar appleadict | 

@ataredg

"Loosers donc"

je n'ai pas bien compris pq tu perds ton temps ici du coup ...

avatar ataredg | 

@franckmac3 : Ce sont deux choses différentes. Je ne finirai pas par un smiley. Mais le choix est assez vaste. Pour ta conclusion, je pense que tu manques déjà de données sur le sujet. Relis l'avant dernière phrase de mon post.

avatar franckmac3 | 

@ataredg

Je ne pense pas trop manquer de données mais n’hésitez pas à m’instruire.
J’ai bien lu votre avant dernière phrase…c’est un peu un résumé de techno-solutionnisme qui mérite le smiley que vous n’avez pas osé me répondre 🤪

avatar debione | 

Enfin cela bouge un peu sur le domaine de la propriété intellectuel et de son utilisation sans autorisation.

avatar AntRule | 

C'est exactement ce qu'Elon Musk reprochait a Microsoft en mai dernier :

"Le propriétaire de Twitter accuse Microsoft d’avoir largement abusé des API pour piller les données du réseaux social."

avatar v1nce29 | 

Entraîner une ai avec le NYT bonjour les biais !

avatar Arnaudvietnam | 

Je ne sais pas si on aura un moyen de bloquer le pillage de ses sites.

J'ai retrouvé du contenu de mes sites sur ChatGPT. Ca ne me rapporte rien si ChatgPT répond à des questions en reprenant mon contenu.

Mê me chose que Google qui reprend des photos sans citer l'auteur.

avatar jopaone | 

Il y a un vide juridique sur le sujet, la technologie avance plus vite que le droit, entraîner des modèles d’IA sur n’importe quel texte dispo sur la toile, est-ce vraiment du pillage ? Un modèle comme GPT-4 a été entraîné avec quasiment toute la matière textuelle du web , dans ce cas tout le monde va-t-il poursuivre OpenAI / MS , mais aussi Meta et autres Google ? J’ai hâte de voir ce qu’il ressortira de cette série de futurs procès 🤔

avatar debione | 

@jopaone:

Ce n'est pas tant la technologie qui avance plus vite que le droit. Et il n'y a pas de vide juridique, la loi sur les droits d'auteurs existent à peu près dans tous les pays. La problématique ici est le fait accompli.
On a exactement les mêmes problèmes depuis fort longtemps avec les agrégateurs, les moteurs de recherche etc etc

Et oui, il sera très intéressant de voir l'issue de ce procès qui pourrait remettre en cause le fonctionnement des GAFAM (et autre), voir pour certaines les mettre en difficulté s'il s'avère qu'il y a plagiat de millions de choses.

avatar Ast2001 | 

On va peut-être arriver à comprendre que toute l'IA générative se construit en volant de la donnée et au final tuera la création. Nous sommes dans un engrenage de folie que rien ne sembkle pouvoir contrôler. Et le NYT a 100% raison. Quand on examoine la plainte, il y a des exemples de textes remontés par ChatGPT qui sont des copies presque identiques d'articles du NYT. J'espère que cette plainte va servir de terreau à la mise en place de pratiques éthiques et que les OpenAI et consors payeront enfin les données qu'ils récupèrent.

avatar debione | 

@Ast2001:
Je l'espère aussi. Cependant, ce qui sera intéressant, c'est de voir jusqu'ou porte les décisions rendues.
Car in fine, un Google search/Duckduckgo et autres moteurs de recherche ne fonctionne que sur ce mode. Afficher sur leurs pages des données qu'ils n'ont pas payé pour être affiché.

avatar max intosh | 

Est ce que Poutine peut demander des droits au NYT vu qu’ils remplissent des pages et des pages avec la guerre en Ukraine? ChatGPT pourrait peut être me répondre.

Pages

CONNEXION UTILISATEUR