Commentaires : Github : des utilisateurs veulent attaquer Microsoft qui utilise leur code pour alimenter son IA

Copilot, un outil de Microsoft boosté par l’IA, fait face à une potentielle action de groupe de codeurs open-source sur Github.

1 « J'aime »

Et bien comme dall e ou l autres qui fait des dissertations, l IA sera capable de coder elle même des soft pas des simple demande et au final ça ouvrira la porte a pas mal de monde a faire leurs petits soft etc,…

Les cols blancs commences à découvrir ça que l industrie a connue

Jamais lu qu il fallait citer absolument toutes les sources.
Bref mettre tout les codes sur une plateforme qui appartient à Microsoft , il faut voir la cgu aussi, Microsoft allait bien s en servir. Si c est gratuit que Microsoft matient le site les servers etc il y a bien une raison
Sinon on fait comme d autres on a son propre site et on met rien sur github

Et il faut contacter les cabinet d avocat ou il travai

Non, absolument pas, et ça rend le problème d’autant plus grave.

Il y a de nombreuses licences open source différentes, et toutes ne donnent pas une liberté absolue.

Par exemple avec la GPL, il est interdit de réutiliser le code dans une application diffusée sous licence non compatible avec la GPL.

4 « J'aime »

Fondamentalement, ça n’aurait rien changé que la plateforme soit à Microsoft ou non. Dans la mesure où c’est accessible publiquement, Microsoft aurait tout a fait pu utiliser tout ce code pour l’apprentissage sans que GitHub lui appartienne.

Il existe d’ailleurs déjà d’autres IA de complétion de code entraînées avec du code public, sans que leur éditeur ne soit le propriétaire d’une plateforme SCM. Il suffit d’aller se sourcer sur n’importe quelle plateforme avec des repos publics (GitHub, GitLab, Bitbucket, SourceForge…)…

Par contre, d’autres l’ont fait en faisant un peu plus attention à la question des licences… Par exemple, sur Tabnine, ils n’ont utilisé que du code sous licence BSD-like, des licences très permissives qui autorisent l’intégration dans du logiciel propriétaire, n’obligent généralement même pas à citer l’origine du code, etc…

1 « J'aime »

Open source ne signifie pas qu’on peut faire ce que l’on veut.
Il y a justement tout un tas de licences avec des particularités différentes.

Que ça soit accessible ne signifie pas systématiquement qu’on puisse faire un service marchand avec, par exemple.

2 « J'aime »

Effectivement @Than trop de personnes font le raccourci entre opensource et libre de droits.

Un petit récapitulatif pour ceux que ça intéresse :wink: : Appendix | Choose a License.

Sinon le github copilot ça doit être bien chiant d’avoir plein de blocs de code proposés dès que tu commences à pondre un proto XD…

1 « J'aime »

Par exemple avec la GPL, il est interdit de réutiliser le code dans une application diffusée sous licence non compatible avec la GPL.

Sauf que là ça ne réutilise pas le code, ça analyse son fonctionnement et ça intègre le résultat à une IA aidant à coder. C’est très différent et non prévu par la GNU GPL à ma connaissance.

Non, clairement, ça réutilise le code.

Regarde l’exemple donné par Tim Davis, le code est quasi identique, les changements se limitent à des noms de variables (C devenu T, Ax devenu Tx) et des variables « constantes » remplacées par leurs valeurs (m, n, Ap, Ai et Ax qui sont initialisées dans le code de gauche et qui sont remplacées par leurs valeurs dans le code de droite). Même les commentaires sont repris :

On est clairement dans la réutilisation de code là.

C’est rigolo d’ailleurs parce que les renommages de certaines variables ne sont même pas fait de façon cohérente… À gauche, on a C, puis Cp, Ci, Cx pour représenter C->p, C->i et C->x. À droite on a T, puis Cp, Ci, Cx pour représenter T->p, T->i et T->x :sweat_smile:

Un humain aurait fait mieux pour maquiller la copie :rofl:

2 « J'aime »

C’est là que cela devient compliqué!
En fait, on peut considérer ça comme une modification du code initial et donc ce nouveau code DOIT être GPL et diffusé, et les références citées. Le cas n’est pas directement prévu, mais c’est l’esprit.
Et à ma connaissance, toutes les licences libres comme la LGPL, GPL, MIT, Apache, BSD, … demandent de citer les « sources » (c’est le cas de le dire :stuck_out_tongue: ) utilisées, même les plus lâches.

1 « J'aime »

En effet, il me semblait qu’en BSD ce n’était pas obligatoire, mais si.

Y a la WTFPL qui autorise à ne pas citer l’origine. Mais ça fait maigre du coup ^^

1 « J'aime »

Il faudrait voir si l’IA copie tout le temps ou si c’est un cas particulier. Il est probable qu’ils citent le pire exemple

Il y a et aura probablement des raté, mais la technologie, de ce que j’en comprends, n’a pas pour objet de faire des duplications de code et donc il sera difficile de plaider contre une IA dont l’algo n’est par essence pas une action « volontaire » de la part du fournisseur de service.

Pour moi on est sur un vide juridique comme souvent avec l’IA même si l’exemple donné par MattS32 effectivement relève de la copie de code concretement.

Honnêtement, pour une entreprise, c’est hyper risqué d’utiliser Copilot. Car, quand bien même la majorité du code provient d’un MIT ou un BSD, il suffit qu’il y ait une seule ligne de GPL soit intégrée, et tu peux te choper un procès gigantissime au c.l.

Imagine que Microsoft l’utilise pour un composant quelconque de Windows. L’auteur s’en rend compte, il attaque Microsoft, et vlan, tout le code source Windows devient GPL, donc Microsoft doit fournir le code source librement et ne peut rien faire contre un concurrent qui ferait un fork de Windows…

C’est juste beaucoup trop risqué pour le gain potentiel (et surtout, aucune étude ne montre que le code généré est meilleur que celui d’un humain).

Pour moi à partir du moment où le fournisseur du service a donné du code à son IA pour qu’elle apprenne avec, il ne peut nier une action volontaire… Et quand bien même l’IA serait allée chercher le code elle même sur Internet, c’est quand même le créateur de l’IA qui a implémenté ce comportement à la base.

Je ne la connaissais pas celle là! :smiley:

Ca me fait mal au c-l… :stuck_out_tongue:
Désolé, je suis sorti! ----------> []

Oui très probablement. Cependant un seul cas permet de dire « ce n’est pas bon »!
De toute façon, par principe et dans la logique des règles des licences, il y a inspiration => ils ne respectent pas les licences.
Je pense que c’est surtout un cas qu’il va falloir étudier pour les différentes licences (chouette, une future LGPLV4, c’était trop simple avant!).

Il ne faut pas confondre une ligne de code avec un algorithme ou une implémentation logicielle. Des lignes de code identiques vous en avez dans tous les programmes.
A moins que Copilot ait évolué (je ne l’utilise plus depuis qu’il est payant), c’est surtout un accélérateur de developpement. Il permet d’éviter de répeter en permanence les même lignes de code. En revanche quand il propose des gros blocs de code c’est plus ennuyeux car il faut le lire et le comprendre (même si c’est pas très dur), mais du coup c’est parfois plus rapide de le taper soit même.
Globalement je trouve que c’est un outil utile. Néanmoins je comprends parfaitement le procès qui est intenté parce que si qui a fait la pertinence de l’outil se sont des lignes de code des autres sans qu’on ait demandé quoi que ce soit. D’un autre côté GitHub est gratuit et sans pub. Or derrière il y a des serveurs, des devs etc. Je suis donc un peu mitigé.

Ben voilà, on y arrive, doucement mais sûrement. Pendant que les humains se chamaillent pour du pognon, les IA apprennent, deviennent de plus en plus matures et remplaceront bientôt les enfants un peu trop bruyants en train de s’échanger des gros mots pour savoir à qui revient le sac de billes !!!
Et tout le monde regarde cette scène pitoyable sans mouffeter. Ils trouvent même ça amusant !!! Et demain, les enfants auront été remplacés, puis viendra le tour des spectateurs naïfs … Amen, la messe est dite…
Dramatiquement dramatique…

GitHub a une offre gratuite. Mais il n’est pas totalement gratuit, il y a plein d’options payantes (et quand tu en as un usage pro, c’est vite indispensable de payer… rien que la protection de branche sur un repo privé, qui est quand même une fonction assez essentielle pour une entreprise, c’est payant), y compris du GitHub « local » hébergé sur les serveurs de l’entreprise cliente.

Au moment où MS a racheté GitHub, c’était déjà une grosse entreprise, qui faisait un CA de plusieurs centaines de millions de dollars.

Et rien dans les conditions d’utilisations ne dit que GitHub a un droit d’exploitation du code pouvant aller au delà de ce que la licence du code prévoit.

C’est là où je suis d’accord.

Sinon ca ne pourrait pas marcher :slight_smile:

J’avoue que j’utilise plus Azure DevOps par habitude et GitHub c’est surtout pour « voir » du code.