Technology

Diffusion stable et pourquoi c’est important

Written by admin

Vous n’avez peut-être pas entendu parler de Stable Diffusion. Au moment de la rédaction de cet article, il a moins de quelques semaines. Peut-être en avez-vous entendu parler et du brouhaha qui l’entoure. Il s’agit d’un modèle d’IA qui peut générer des images basées sur une invite de texte ou une image d’entrée. Pourquoi est-ce important, comment l’utilisez-vous et pourquoi devriez-vous vous en soucier ?

Cette année, nous avons vu plusieurs IA de génération d’images telles que Dall-e 2, Imagenet même Craiyon. L’IA Canvas de Nvidia permet à quelqu’un de créer une image brute avec différentes couleurs représentant différents éléments, tels que des montagnes ou de l’eau. La toile peut le transformer en un beau paysage. Qu’est-ce qui rend Stable Diffusion spécial ? Pour commencer, c’est open source sous le Licence Creative ML OpenRAIL-M, ce qui est relativement permissif. De plus, vous pouvez exécuter Stable Diffusion (SD) sur votre ordinateur plutôt que via le cloud, accessible via un site Web ou une API. Ils recommandent un GPU NVIDIA de la série 3xxx avec au moins 6 Go de RAM pour obtenir des résultats décents. Mais en raison de sa nature open source, les correctifs et les ajustements lui permettent d’être uniquement CPU, alimenté par AMD ou même compatible Mac.

Cela touche à la chose la plus importante à propos de SD. La communauté et l’énergie qui l’entoure. Il existe des dizaines de dépôts avec différentes fonctionnalités, interfaces utilisateur Web et optimisations. Les gens forment de nouveaux modèles ou affinent des modèles pour mieux générer différents styles de contenu. Il existe des plugins pour Photoshop et Krita. D’autres modèles sont intégrés au flux, comme la mise à l’échelle de l’image ou la correction du visage. La vitesse à laquelle cela a vu le jour est vertigineuse. En ce moment, c’est un peu l’ouest sauvage.

Comment l’utilisez-vous?

Après avoir joué avec SD sur notre bureau à la maison et manipulé quelques-uns des dépôts, nous pouvons dire avec confiance que SD n’est pas aussi bon que Dall-E 2 lorsqu’il s’agit de générer des concepts abstraits.

Boston Terrier avec une queue de sirène, au fond de l’océan, dramatique, art numérique.
Images générées par Nir Barazida

Cela ne le rend pas moins incroyable. La plupart des exemples incroyables que vous voyez en ligne sont sélectionnés, mais le fait que vous puissiez allumer votre bureau avec un RTX 3060 bas de gamme et créer une nouvelle image toutes les 13 secondes est époustouflant. Éloignez-vous pour un verre d’eau et vous aurez environ 15 images à parcourir à votre retour. Beaucoup d’entre eux sont décents et peuvent être itérés (plus à ce sujet plus tard).

Si vous souhaitez jouer avec, rendez-vous sur étreignant le visage, dreamstudio.aiou Collaboration Google et utilisez leur interface Web (tous actuellement gratuits). Ou suivez un guide et installez-le sur votre machine (tout guide que nous écrivons ici sera terriblement obsolète dans quelques semaines).

La véritable magie de la SD et des autres générations d’images est l’interaction entre l’homme et l’ordinateur. Ne pensez pas à cela comme un « mettez une chose, sortez une nouvelle chose » ; le système peut se boucler sur lui-même. [Andrew] l’a fait récemment, en commençant par un dessin très simple de Seattle. Il a introduit cette image dans SD, demandant « une peinture fantastique numérique de la ligne d’horizon de la ville de Seattle. Arbres d’automne vibrants au premier plan. Aiguille de l’espace visible. Mont Rainier en arrière-plan. Très détaillé.

Dessin d'Andy à gauche, SD à droite

J’espère que vous pouvez dire lequel [Andrew] a dessiné et lequel SD a généré. Il a réintroduit cette image, la changeant pour avoir une ambiance post-apocalyptique. Il dessine ensuite un simple vaisseau spatial dans le ciel et demande à SD de le transformer en un beau vaisseau spatial, et après quelques passages, il s’intègre parfaitement dans la scène. L’ajout d’oiseaux et d’une passe à faible intensité le réunit dans une scène magnifique.

SD se débat avec la cohérence entre les passes de génération, car [Karen Cheng] démontre dans sa tentative de changer une vidéo de quelqu’un qui marche pour avoir une tenue différente. Elle combine la sortie de Dalle (SD devrait très bien fonctionner ici) avec EBSynth, une IA capable de prendre une image modifiée et d’extrapoler comment elle devrait s’appliquer aux images suivantes. Les résultats sont incroyables.

En fin de compte, ce sera un autre outil pour exprimer des idées plus rapidement et de manière plus accessible. Bien que ce que SD génère ne puisse pas être utilisé comme actif final, il pourrait être utilisé pour générer des textures dans un jeu prototype. Ou générer un logo pour un projet open-source.

Pourquoi devriez-vous vous en soucier?

Généré par l’auteur via SD

J’espère que vous pourrez voir à quel point la SD et ses modèles cousins ​​sont excitants et puissants. Si un film avait contenu certaines des démos ci-dessus il y a quelques années à peine, nous aurions probablement qualifié le film de magie hollywoodienne.

Le temps nous dira si nous allons continuer à itérer sur l’idée ou passer à des techniques plus puissantes. Mais il y a déjà des efforts pour former des modèles plus grands avec des ajustements pour mieux comprendre le monde et les invites.

L’open source est aussi un peu une épée à double tranchant, car n’importe qui peut le prendre et faire ce qu’il veut. La licence sur le modèle interdit son utilisation à de nombreuses fins néfastes, mais à ce stade, nous ne savons pas quelles sortes de ramifications cela aura à long terme. Regarder dix ou quinze ans plus tard devient très trouble car il est difficile d’imaginer ce qui pourrait être fait avec une version 10 fois meilleure et fonctionnant en temps réel.

Nous avons écrit sur comment Dall-E impacte la photographie, mais cela ne fait qu’effleurer la surface. Il y a tellement plus de possibilités, et nous sommes impatients de voir ce qui se passera. Tout ce que nous pouvons dire, c’est qu’il est satisfaisant de regarder une image qui vous rend heureux et de savoir qu’elle a été générée sur votre ordinateur.

About the author

admin

Leave a Comment