• 1 Post
  • 53 Comments
Joined 1 year ago
cake
Cake day: June 22nd, 2023

help-circle







  • Le droit d’auteur francais il dit : tout ce qui n’est pas prĂ©vus par la loi et/ou qui est rĂ©alisĂ© sans consentement de l’auteur est interdit. C’est pas flou du tout. C’est flou seulement si le but est de jouer au con.

    Bah si c’est flou. C’est prĂ©vu par la loi de pouvoir regarder une oeuvre et de s’en inspirer. C’est interdit d’en faire une oeuvre dĂ©rivĂ©e. Miyazaki a eu le droit de regarder Le Roi et l’Oiseau et de s’en inspirer pour ses oeuvres aĂ©riennes et oniriques. Un auteur n’a heureusement pas le droit de t’interdire de nourrir ton imaginaire avec ses oeuvres.

    Tu as Ă©galement le droit de faire des stats sur le nombre d’apparition de Haddock dans Tintin. De faire des analyses de la colorimĂ©trie, des apparitions de mots, etc. et c’est pas considĂ©rĂ© comme une oeuvre dĂ©rivĂ©e et l’auteur ne peut l’interdire. Un modĂšle de gĂ©nĂ©ration d’images fait ça Ă  l’échelle au dessus, en faisant des stats au niveau du coup de crayon. On peut arguer qu’il est d’un cotĂ© ou de l’autre de la ligne. C’est pas jouer au con: la loi est totalement floue lĂ  dessus.

    Les problĂšmes de l’Open source rapido : absence d’historicitĂ©, sans obligation de paternitĂ© on ne sait pas qui a fais quoi. On ne sort pas les oeuvres du systĂšme capitaliste (qui se conjugue en l’occurrence trĂšs bien avec ton anarchie communisme) grĂące a l’absence de clause share alike. Enfin sans auteur, plus de responsabilitĂ© de l’auteur sur son oeuvre (argument du “c’est la communautĂ© qui veut ça hein”). L’Open source c’est libertaire et libertarien, anar ok, communiste : sĂ»rement pas!

    Euh
 quoi?

    1. HistoricitĂ©: les projets open source publient gĂ©nĂ©ralement tout l’historique de leur dĂ©veloppement. Tu peux littĂ©ralement dire qui a Ă©crit quelle ligne d’un projet. Dans le dernier auquel j’ai contribuĂ© je devais mĂȘme signer cryptographiquement chaque commit. C’est le seul endroit Ă  ma connaissance oĂč ça marche comme ça! Aucun Ă©diteur de boite privĂ©e ne te donnera un tel dĂ©tail.

    2. Les clauses “share alike” ça a Ă©tĂ© inventĂ© par le mouvement open source. Les licences GPL Ă  l’origine, que perso je prĂ©fĂšre aux licences BSD et Apache qui permettent de fermer le produit plus tard. Un soft sous la GPL, si, il est largement sorti du systĂšme capitaliste car il ne peut plus devenir un “produit de propriĂ©tĂ© intellectuelle”. Il peut ĂȘtre utile Ă  une boite capitaliste, principalement parce que ça diminue leurs coĂ»ts, mais l’écosystĂšme open source existe en dehors ou en parallĂšle du capitalisme

    3. Le fait que l’on possĂšde collectivement les moyens de production logiciel, j’ai la faiblesse de penser que c’est pas mal communiste si. C’est pas anti-capitaliste en soi, c’est un modĂšle post-capitaliste, non-capitaliste, qui pour beaucoup de monde semble ĂȘtre l’état stable logique de n’importe quelle tech: ouverte, possĂ©dable par tout le monde.

    L’Open source et le mouvement libriste ne peuvent exister sans les lĂ©gislations actuelles sur la PI, ces mouvements s’appuient directement dessus mĂȘme. C’est pas une opposition, ce sont des usages que permettent les lois.

    Oui, parce que l’open source est un mouvement nĂ© de l’opposition Ă  la propriĂ©tĂ© intellectuelle et qui a dĂ©cidĂ© de combattre cette derniĂšre par la subversion. La plupart des libristes seraient heureux qu’on retire toute propriĂ©tĂ© intellectuelle Ă  tous les programmes. Tu n’imagines pas Ă  quel point l’informatique serait diffĂ©rente si on avait le droit de s’échanger des binaires propriĂ©taires sans ĂȘtre accusĂ©s de piratage. À quel point on pourrait facilement rendre plein de systĂšmes plus compatibles et secure.

    L’open-source est un pis-aller, un compromis auquel nous a forcĂ© la propriĂ©tĂ© intellectuelle.

    Les techs devraient comprendre que la sociĂ©tĂ© Ă©volue plus lentement sur ses sujets et qu’elle a besoins d’un minimum de recul sur les pratiques pour crĂ©er de la lĂ©gislation. Dans le mĂȘme temps les boites techs devraient suivrent les lois. C’est plus clair ? J’ai pas eu l’impression de faire des amalgames pourtant


    C’est quoi “les techs”?

    Et sur le web, y a 30 ans de “recul sur les usages” sans qu’on ait remis Ă  plat le copyright (qui a beaucoup plus d’influence Ă  l’échelle mondiale que le droit d’auteur). La lĂ©gislation est allĂ©e dans le sens des boites qui avaient les moyens de violer la loi parce qu’in fine le lĂ©gislateur a Ă©tĂ© incapable de comprendre que streaming et download sont la mĂȘme chose. Cette semi-libertĂ© a Ă©tĂ© conquise en dĂ©montrant des usages qui ont demandĂ© Ă  ignorer la loi. C’est ça le problĂšme. “ObĂ©issez Ă  la loi mais dĂ©montrez les usages que d’autres lois pourraient permettre” est une contradiction et c’est pourtant comme ça que ça a Ă©voluĂ©.

    Alors je suis d’accord que c’est nul, que la loi devrait comprendre et protĂ©ger les usages qui vont dans l’intĂ©rĂȘt du plus grand nombre, mais ni en France, ni aux US ça ne marche comme ça. C’est de la dĂ©fense des intĂ©rĂȘts de ceux qui crient le plus fort, avec un fort bonus au conservatisme quand les choses sont trop compliquĂ©es.

    Les nouveaux usages, on doit les dĂ©montrer en marge des lois. La gĂ©nĂ©ration d’image en est un bon exemple: si tout le monde prenait ton acceptation de “ne faisons surtout rien qui puisse ĂȘtre considĂ©rĂ© un jour illĂ©gal”, personne ne prendrait aux sĂ©rieux la possibilitĂ© de gĂ©nĂ©ration d’images de qualitĂ© professionnelle. Le dĂ©bat ne se poserait jamais et la techno n’aurait jamais Ă©mergĂ©.

    C’est un problĂšme sĂ©rieux, et les deux seules positions semblent ĂȘtre “interdisons tout” et “ignorons les lois”. J’aimerais bien qu’on rĂ©installe un peu le dialogue entre ces deux positions extrĂ©mistes qui n’ont pas l’air de comprendre ce que l’autre fait.



  • Content que tu le prennes bien, j’ai trouvĂ© ma rĂ©ponse d’hier un peu agressive, dĂ©solĂ©!

    Le truc c’est que non la loi ne l’autorise pas.

    Depuis que j’ai lu le jugement de Google contre la guilde des auteurs, oĂč un juge donne Ă  Google un blanc seing Ă  clairement violer la loi (reproduire des pages de bouquins sans autorisation des auteurs) j’ai compris que la loi, elle est davantage dite par les juges que par le lĂ©gislateur. Si Facebook fait des trucs illĂ©gaux en France derriĂšre des portes fermĂ©es aux US, l’interdire ne va handicaper que les efforts ouverts.

    Et je pense que quand on voit les dĂ©rives de l’Open source, notamment le fait que ce systĂšme permet aux gafam de s’enrichir grassement, on peut se demander qui du droit d’auteur français ou de l’Open source a le plus de problĂšmes vis-Ă -vis d’internet et du numĂ©rique.

    Quelles dĂ©rives? L’open source est la seule raison qui a permis d’éviter les futurs les plus dystopiques en ligne, qui a permis Ă  internet de continuer Ă  ĂȘtre relativement libre (si si, les GAFAM sont tous optionnels, c’était pas gagnĂ©) et c’est encore en majoritĂ© sur des projets open source qu’internet se base. Les combats sont toujours en cours sur plein de champs de bataille. C’est un peu perdu sur les tĂ©lĂ©phone, sur l’IA on est en train de gagner mais faut pas vendre la peau de l’ours prĂ©maturĂ©ment.

    Je ne vois pas de quelle dĂ©rive tu parles? L’open source fait Ă©conomiser de l’argent Ă  tout le monde, c’est une tellement bonne idĂ©e que plein de boites privĂ©es s’y sont mises. C’est pas une dĂ©rive, c’est une volontĂ© de base. C’est un projet qui est encore, dans son essence, anarcho-communiste (lien vers un post+commentaire qui explique ça plus en dĂ©tails) Que des turbo-capitalistes y participent sans aucune concession de notre part et “donnent” des contributions est une victoire totale, pas une compromission ou une dĂ©rive.

    Le droit d’auteur (en gĂ©nĂ©ral, pas spĂ©cifiquement le français) est ce qui a permis Ă  notamment Google et Youtube de vendre un systĂšme centralisĂ© comme essentiel Ă  tout. Pendant longtemps on a eu un systĂšme trĂšs supĂ©rieur Ă  Youtube pour voir des vidĂ©os en ligne: P2P+VLC et j’arguerais que c’est encore une combo supĂ©rieure en terme de contenus. Ce sont les ayant droits qui ont rendu ce systĂšme illĂ©gal alors que non commercial, volontaire, non-capitaliste.

    Le web différent, il a été rendu illégal. La tech est là et toutes les libs derriÚre elle sont open source.

    Et pour le coup forcer a respecter les lois en vigueur ça serait un bon dĂ©but. Et oui mĂȘme quand c’est chiant.

    Les lois en vigueur sont si floues et mal dĂ©finies qu’on ne sait toujours pas si les poids d’un modĂšle sont copyrightable ou si c’est un produit dĂ©rivĂ© des oeuvres vues Ă  l’entrainement. Y a des arguments dans les deux sens, la loi ne le dit pas, et le premier jugement rendu dĂ©pendra de la rhĂ©torique des avocats et de ce que je juge aura mangĂ© Ă  midi. Et des usages en vigueur, qui sont un argument fort: c’est un noeud gordien: l’usage deviendra lĂ©gal s’il est rĂ©pandu. J’exagĂšre pas, on en est lĂ . On a des exhortations Ă  respecter une loi dont la lettre est floue et dont l’esprit est bafouĂ© par ceux qui nous demandent de faire la chose soit-disant morale.

    Faut faire gaffe avec la posture du “les vraies auteurs blablabla” contre les mĂ©chants ayant-droit rentiers.

    Tu admettras qu’il y a quand mĂȘme une diffĂ©rence fondamentale entre des auteurs qui ont produit leurs Ɠuvres et les gens qui en ont hĂ©ritĂ© parfois sans avoir mĂȘme connu l’auteur. Dune, Tintin, Lord of the Ring, Ambre, et j’en passe sont des franchises mutilĂ©es par des hĂ©ritiers alors qu’elles se porteraient mieux dans les mains de leurs fans. Il suffit de voir l’explosion de crĂ©ativitĂ© autour des univers de Lovecraft ou de Conan Doyle quand ils sont tombĂ©s dans le domaine public pour voir que le droit d’auteur ampute la culture.

    Je veux bien entendre les intĂ©rĂȘts des crĂ©ateurs de leur vivant (et encore, le copyright original c’était 21 ans aprĂšs la premiĂšre publication), mais je dois t’avouer que pirater du Tintin ou du Brel, j’ai du mal Ă  voir ça comme immoral.

    “Publier” veut dire “Mettre entre les mains du public”, c’est donner Ă  l’oeuvre une libertĂ© de participer Ă  la construction de l’imaginaire collectif et de la culture. J’ai l’impression que cette composante du contrat social est un peu trop souvent oubliĂ©e.

    Mais ce qui est la rĂ©alitĂ© c’est que l’évolution social ne suit pas l’évolution tech. Les techs forcent la mains depuis 30ans, mais il y a 30ans on nous promettait un web bien diffĂ©rents de celui qu’on a. A qui la faute? Principalement a des boites tech

    Alors je lutte beaucoup contre cette tendance Ă  faire de “la tech” et des “boites techs” des synonymes. Ça invisibilise toute la partie non-capitaliste de la tech, tout l’open source, et tous les activistes numĂ©riques qui crient dans le vide depuis des dĂ©cennies mais qu’on est bien content de trouver quand une partie pratique du web se merdifie.

    L’évolution sociale, oui, elle suit et boit les paroles des grosses boites et ignore la voix de la “tech”, la vraie, celle des devs, ingĂ©s et des chercheurs qui la font. Je ne sais pas qui accuser en prioritĂ©, je trouve que les journalistes ont un grand rĂŽle, mais j’ai aussi dĂ©cidĂ© que c’était aussi Ă  moi de parler sur un mode un peu plus politique, un peu plus culturel, des sujets ouverts qui me tiennent Ă  coeur quand j’entends trop de mensonges ou d’idĂ©es fausses Ă  leur encontre.


  • 
en France. Juridiction qui est hors sujet pour 99% des boites d’IA, y compris françaises. Je veux dire, en droit français, pendant longtemps (jusqu’aux annĂ©es 2010 je crois), il n’était mĂȘme pas sur que du code compilĂ© soit copyrightable, un algo ne l’était pas et son implĂ©mentation en code ne l’était que via des hacks lĂ©gaux qu’un refactoring de base pouvait faire sauter. Le droit moral d’auteur a moyen de rendre tout l’open source bancal en France. Et pourtant


    La thĂ©orie lĂ©gale, surtout sur un truc aussi mal branlĂ© que la « propriĂ©tĂ© intellectuelle » dans le cade de collaboration internationale, avec des usages qui changent du tout au tout d’une annĂ©e sur l’autre, c’est plus de la philosophie que des rĂšgles qui ont un impact rĂ©el.

    Ce qui va compter comme ailleurs c’est les jugements de tribunaux US. Et entre le fair use et les compilations de faits, et surtout les millions que peuvent mettre les boties d’IA en frais d’avocats, je pense qu’ils ont une bonne chance de n’avoir aucun problĂšme. La loi devrait pas ĂȘtre un jeu de hasard sur 15 ans, mais c’est ce que c’est. Quand Google a scannĂ© pour Google Books des millions de bouquins sans autorisation et mis des extraits en ligne ils ont gagnĂ© leur procĂšs. Alors que bon, c’est clairement une violation, en thĂ©orie.

    C’est con ces gens qui veulent pas qu’on fasse n’imp avec leur travaux hein ?

    Ce qui est surtout con c’est que les lois actuelles l’autorisent justement. Par exemple un site comme deviantart a Ă©tĂ© utilisĂ© pour du training et les auteurs ont dĂ©couvert que l’EULA qu’ils avaient “signĂ©â€ l’autorisait. Les auteurs croient que ces lois les protĂšgent mais je pense qu’on les trompe avec ça. Le contrat social autour du copyright et du droit d’auteur doit franchement ĂȘtre remis Ă  plat.

    Je n’aime pas la sauce qui monte d’opposer les ingĂ©s et les artistes. C’est contre-productif. Les artistes ne comprennent pas comment leurs oeuvres sont utilisĂ©es et ont des raisons lĂ©gitimes de s’inquiĂ©ter et de critiquer ces technos, mais la propriĂ©tĂ© intellectuelle c’est un angle particuliĂšrement mauvais et perdant pour eux.

    Il faut une lĂ©gislation globale sur les dataset pour entraĂźnĂ© les IA, pas uniquement pour permettre de respecter les volontĂ©s des auteurs, mais aussi pour pas que la techno devienne nimp’.

    Ce sera possible quand on saura dĂ©finir “nimp”. Et c’est pas avec les lĂ©gislateurs actuels qu’on peut s’attendre Ă  des rĂšgles intelligentes et mesurĂ©es. J’aimerais aussi qu’on parle vraiment de la volontĂ© des auteurs, plutĂŽt que des lobbys d’ayant-droits. Ces derniers, on sait bien ce qu’ils veulent: que chaque visionnage d’une oeuvre soit payante et sans droits associĂ©s et que toute oeuvre produire par une personne ayant vu leur oeuvre leur rapporte quelque chose. C’est pas des crĂ©ateurs, c’est des rentier. La culture c’est pas ça, ça se fait en tenant compte aussi de la volontĂ© du public. Et les modĂšles de gĂ©nĂ©ration de mĂ©dia y ont un rĂŽle Ă  jouer, mais c’est pas dans ce dĂ©bat lĂ©gal empli de faux-semblants et d’intĂ©rĂȘts privĂ©s qu’on va inventer la culture de demain.








  • Le droit d’auteur est dĂ©jĂ  pas adaptĂ© Ă  Internet, y a aucun moyen qu’il ne soit pas larguĂ© vis Ă  vis de l’IA. J’essaye de pas trop suivre, sachant que de toutes façons ils vont nous emmerder avec des jugements perchĂ©s et sans aucune logique. Quelques Ă©lĂ©ments:

    1. Une cour US a reconnu que les images gĂ©nĂ©rĂ©es par des IAs n’étaient pas copyrightable, ce qui vaut sĂ»rement (mais je ne suis pas avocat) pour tout contenu gĂ©nĂ©rĂ©. Les artistes pensent que c’est une victoire, je pense que c’est super positif pour l’open source, je pense qu’ils vont surement revenir en arriĂšre lĂ  dessus tellement ça emmerde des boites privĂ©es.

    2. Les artistes ne sont pas contents qu’on entraĂźne des IAs sur leurs images. Ça a l’air d’ĂȘtre lĂ©gal pourtant. Je ne pense pas que lĂ©galement on puisse arguer que les images produites sont des produits dĂ©rivĂ©s. Y a des prĂ©cĂ©dents Ă  arguer, mais je ne suis toujours pas avocat. Moralement, je les comprends, mais je dois avouer que j’ai assez peu d’empathie pour les ayants droits qui pourrissent le net depuis les annĂ©es 90 avec la lettre de la loi pour ne pas juste rĂ©pondre “cheh” quand ça les emmerde. Ça fait 30 ans qu’on demande une rĂ©forme du copyright qui tienne compte des utilisations libres et non commerciales, quand vous avez envie, on en parle, mais on remet tout Ă  plat.

    3. Une chose emmerdante pour la communautĂ© open source est que mĂȘme si on est dans une zone grise (“surement lĂ©gale mais on le saura dans 15 ans quand les recours seront Ă©puisĂ©s”) en ce qui concerne l’utilisation d’oeuvres privĂ©e: les boites privĂ©es le font derriĂšre des portes fermĂ©es donc personne leur dit rien, mais la communautĂ© doit assembler un dataset forcĂ©ment public d’oeuvres qu’elle n’ont pas le droit de diffuser. The Pile, qui je soupçonne est utilisĂ©e par tout le monde n’est disponible que sous forme de torrent pirate. C’est chiant. Ils ont essayĂ© d’arguer que c’est pas vraiment utilisable pour relire des oeuvres vu que c’est juste des bouts de phrases dĂ©coupĂ©es dans tous les sens, mais c’est clairement une oeuvre dĂ©rivĂ©e pas diffusable.

    Pour conclure, je dirais qu’en 2024, la logique du copyright est complĂštement obsolĂšte et inapplicable. Ils vont tenter de juger des trucs mais c’est tellement dĂ©pendant des juges et des avocats et de l’état US dans lequel le premier jugement va ĂȘtre rendu, que c’est inutile de tenter de prĂ©dire oĂč la limite de la loi va ĂȘtre.

    C’est super chiant, on est dans une zone grise qui va durer des annĂ©es, mais on peut pas vraiment attendre aprĂšs un lĂ©gislateur dĂ©passĂ© et soumis aux lobbyistes pour donner des lignes claires avant qu’il soit trop tard.



  • Les modĂšles utilisĂ©s sont contraints par deux choses: les GPUs sont trĂšs optimisĂ©s pour les multiplications matricielles, et la fonction produite par ton modĂšle doit ĂȘtre dĂ©rivable vis Ă  vis de tous ses paramĂštres.

    En fait dans les modĂšles actuels, on ne pense pas en terme de neurones, mais plutĂŽt de couches. Tu as une couche de neurones suivie d’une couche d’attention, suivie d’une couche de convolution, Ă  laquelle tu ajoutes les entrĂ©es, etc.

    On est trĂšs influencĂ©s par les opĂ©rations optimisĂ©es pour GPU, donc on va plutĂŽt penser en terme de matrices. Deux couches de N neurones se suivant et oĂč chaque neurone est connectĂ©e Ă  tous ceux de la couche de N neurones suivante, c’est un “fully-connected layer” ou un perceptron. Ça s’exprime sous forme d’une matrice de poids: tu mets tes entrĂ©es sous forme de vecteur, tu multiplies par la matrice de poids et tu as gĂ©nĂ©ralement une “non linĂ©aritĂ©â€, c’est Ă  dire une fonction de type RELU ajoutĂ©e aprĂšs la multiplication.

    L’autre façon de voir un modĂšle est de dire que ce que tu veux est une fonction continue prenant un vecteur de dimension N_i en entrĂ©e et N_o en sortie et dĂ©rivable selon chacun de ses millions de paramĂštres (typiquement, les paramĂštres sont les poids des synapses du rĂ©seau de neurones).

    On parle vraiment peu de neurones. Les devs proches de l’optimisation parlent en terme de matrices, ceux proches de la thĂ©orie mathĂ©matique en terme de fonction, et un bon modĂšle doit prendre les deux points de vue en considĂ©ration.

    Tu peux tout à fait imaginer un modÚle plus proche des neurones biologiques, mais avec ces deux contraintes: fonction continue et dérivable par rapport à chaque paramÚtre, et si tu veux que ce soit rapide, maximum de calcul parallÚle sous forme de matrices (de tenseurs en fait, qui est le petit nom des matrices de dimension supérieure à 2)