Plus récents

@fff@pouet.chapril.org @CorentinQ la mauvaise utilisation des IA est par contre effectivement un sujet qui m'inquiète.

@fff@pouet.chapril.org déjà fait. Rien de problématique. Rien que je n'ai pas sciemment écrit et publié de mon propre chef et en toute conscience. Ce qui me générerait c'est qu'on extrapole un truc sur moi qui serait faux. Mais encore une fois, aucun rapport avec les datasets dont on parle pour entraîner une IA.

@fff@pouet.chapril.org tu confonds dataset et donnée en ligne. Si on me refuse un prêt parce que j'ai dit un truc sur internet, ce n'est pas parce que des datasets sont fait. C'est parce que mon propos est en ligne.

@fff@pouet.chapril.org il faut se référer au détail des lois en réalité. Si la donnée est "telle qu'elle", c'est à dire une copie d'une page (même si le format change), elle est absolument partageable si la source est clairement identifiée. De ce fait, tu as par exemple le droit de copier des tweets, de proposer ça sur le net, tant que tu dis d'où ça vient.

@fff@pouet.chapril.org je suis désolé mais ça n'a pas vraiment changé.
Tant que la donnée est publique, le scrapping est autorisé. Et encore une fois les datasets ne proposent rien de privé. Tout ce qui est contenu est extrait de des pages publiques.

@fff@pouet.chapril.org encore une fois, un metabrowser, un moteur de recherche, ou même un crawler, un proxy cache... Etc... Font ça depuis le début d'internet.
Et si ça ne te convainc pas, dis moi ce que tu penses de la wayback machine ?

@fff@pouet.chapril.org si tu lis bien. Il est clairement écrit sur la page que c'est absolument légal. Que la seule chose qu'il ne faut pas faire c'est d'utiliser ces données comme si c'était les notres. En d'autres termes d'usurper l'auteur.
Les dataset pour le ML sont des données publiques. Jamais elles ne sont fournies sans la source.

@fff@pouet.chapril.org encore une fois, la libre consultation d'internet est ancrée dans son fonctionnement. Un IA ne fait que consulter une capture de données extraites. Elle consulte les données lors de l'entraînement. C'est le principe du fair-use. Sinon, on interdit l'indexation (et donc les moteurs de recherche) et les crawler. Si cela vous paraît normal de limiter l'accès à internet, moi ça me pose problème.

@fff@pouet.chapril.org la création de compte sert avant tout à limiter le nombre d'appels à l'API. Je veux bien qu'on sois prudent mais l'authentification c'est un truc de base sur tous les services web. Qu'ils utilisent mes questions à l'API pour continuer à améliorer l'IA est une chose qui me paraît logique.
Je refuse d'entrer dans une logique paranoïaque. Que les juristes planchent pour éviter les abus est une très bonne chose. Ça ne m'empêchera pas d'apprécier les travaux de OpenAI.

@fff@pouet.chapril.org une IA telle que chatgpt ne retiens pas l'information, elle génère un résultat basée sur l'expérience. Tout comme un humain, elle peut de tromper, mentir, inventer. La base ne sert pas de consultation mais d'entraînement comportemental. C'est en ça que ça diffère énormément des autres cas.

@fff@pouet.chapril.org c'est un débat qui est difficile à statuer au final. Je comprends clairement ce que tu dis, mais je ne suis pas convaincu 😉

@fff@pouet.chapril.org si il faut pointer du doigt une chose, ce n'est pas OpenAI mais plutôt les créateurs de base d'entraînement (qui sont aussi exploitables comme bases statistiques). Mais aller traiter des tera de données pour nettoyer les informations que les gens ont donné en toute conscience ou par ingnorance malgré les milliers de mises en garde... Bof quoi...

@fff@pouet.chapril.org interdire l'utilisation de ses données ce serait comme dire que tu refuses, par exemple, que je retienne les informations de nos conversations et de l'interdire d'en tirer des conclusions que je pourrais délivrer aux autres. À mon sens, internet est une base de données, libre d'accès, très fournie. Je fais au mieux pour ne pas m'en servir d'une mauvaise manière.

@fff@pouet.chapril.org oui il faut que les gens prennent conscience de ce qu'ils envoient sur le net. Mais si c'est moi qui, demain, veut utiliser les données de ce forum pour créer une IA, je le ferai. Je ne parle pas de scrupules ici. Mais de volonté de faire quelque chose d'intéressant et d'utile.
Que ce soit une IA pour s'entraîner ou un analyste qui fait des stats, le souci était, est et restera le même : ça fait 25 ans qu'on le dit, les données sur internet sont exploitables.

@fff@pouet.chapril.org PS : je ne dis pas qu'il ne faut pas être vigilant. Je dis simplement que pour le moment on ne peut pas reprocher à OpenAI de faire des entraînements sur des données personnelles autres que ce qui est publique sur le net.

@fff@pouet.chapril.org jusque là, ces IA n'ont eu qu'un seul type de plainte : le droit d'auteur d'œuvre générée. En ce qui concerne les données personnelles, à ce jour, rien de ce que sort OpenAI (chat ou gpt) ne semble fournir de résultat gênant. Donc on peut facilement se dire qu'à ce jour elle n'a été entraînée qu'avec des bases remplies de données publiques. Pour le moment, c'est à peu près correct.

@fff@pouet.chapril.org houlla alors...
Ce domaine je le connais très bien.
OpenAI c'est un exemple au milieu de milliers d'autres.
Les autres IA que j'utilise, et que j'étudie, utilisent seulement des base de données que je connais et que vous et moi pouvons récupérer (the Pile, IMDb, etc...)
OpenAI est potentiellement un peu moins clean mais il ne faut pas non plus entrer dans la paranoïa (avec toute la bienveillance de les propos) parce que...

@fff@pouet.chapril.org maintenant est-ce que openai est le diable... Je ne sais pas. Franchement ils ont une bonne ligne de conduite depuis un moment.
Je dis simplement que voilà... Ils ont été clairs depuis le début : faut qu'ils vivent et un training de model de cet envergure c'est pas donné.

@fff@pouet.chapril.org oui oui non mais clairement je pense que openai a fait un énorme boulot incroyable et efficace mais qui a pour but d'être rentable.
D'ailleurs je me demande comment stable diffusion a pu financer leur entraînement (ou encore GPTneo) et récupérer assez de sous. Parce qu'on parle de centaines de milliers d'euros hein. Faut que je fouille.

Quand ça va devenir payant, le terme "démocratisé" va être vite oublié 😁

Plus anciens
techlover

Technology lovers, here we are — (development, digital artwork, science…)