Mistral, un LLM vraiment différent ? L’entreprise épinglée pour avoir utilisé des contenus protégés

Présentée comme l’alternative « différente » aux géants américains et vitrine d’un cloud souverain, Mistral se retrouve rattrapée par les mêmes soupçons que ses concurrents. Utilisation d’œuvres protégées et collecte agressive de données viennent sérieusement compliquer le récit d’une IA plus vertueuse.
Une enquête de Mediapart affirme que Mistral AI aurait entraîné son modèle Mistral Large sur des milliers de livres, chansons et articles de presse protégés par le droit d’auteur. En interrogeant Le Chat, son chatbot, les journalistes ont obtenu des passages entiers de romans comme Harry Potter, 1984 ou Le Petit Prince restitués mot pour mot. Dans certains cas, une large portion d’un même ouvrage aurait été regurgitée, signe que ces textes font bien partie du jeu d’entraînement. De quoi entamer l’image d’un champion européen qui promettait transparence, respect des règles et approche différente des mastodontes américains.
Mistral dans le même bain que les géants de l’IA
L’enquête pointe aussi la façon dont la start-up collecte les contenus en ligne. Alors que l’AI Act permet aux éditeurs d’interdire l’usage de leurs pages, les robots de Mistral auraient continué à aspirer des sites pourtant fermés à l’IA. Mediapart dit avoir observé plusieurs milliers de requêtes venant de serveurs liés à l’entreprise. Mistral invoque un principe de réalité et assure que ces robots servent à améliorer les réponses de son assistant, pas à bâtir de nouveaux jeux de données.
À lire aussi
Ce dossier s’inscrit dans un mouvement plus large. Perplexity est accusé de masquer l’identité de ses crawlers pour contourner les blocages, tandis que des systèmes comme MidJourney ou Stable Diffusion ont été pointés pour avoir entraîné leurs IA d’images sur des œuvres artistiques aspirées sans consentement. Dans le même temps, des modèles de type ChatGPT ont reconnu, en creux, la difficulté d’éviter totalement les contenus protégés. Reste une question centrale : Mistral est-elle réellement différente des LLM américains qu’elle prétend concurrencer, ou simplement prise dans la même course à la donnée, avec à la clé le risque de lourdes sanctions prévues par l’AI Act ?