Wat is DALL·E 2?

DALL·E 2 is een programma voor kunstmatige intelligentie dat afbeeldingen maakt van tekstuele beschrijvingen, donderdag onthuld door OpenAI, een onderzoeksbureau.

Het gebruikt een trainingsversie van 12 miljard parameters van het GPT-3-transformatormodel om de natuurlijke taalinvoer te interpreteren en overeenkomstige afbeeldingen te genereren. Wanneer het bijvoorbeeld werd voorzien van de zin 'een zwart-witfoto van een kleine hond', produceerde het een correct weergegeven zwart-witafbeelding van een chihuahua.

Het systeem is niet perfect - het levert soms beelden op die moeilijk te interpreteren zijn, of totaal niet kloppen. Toen hem bijvoorbeeld werd gevraagd om een beeld te genereren van 'een persoon die op een eenwieler op een koord over een vulkaan rijdt', produceerde het een (mooi, naar mijn mening) maar totaal ongerelateerd beeld van een zonsondergang boven water met een klein figuurtje op de voorgrond. .

Toch zijn de resultaten indrukwekkend, en OpenAI zegt dat DALL·E 2 'het eerste AI-model is dat afbeeldingen genereert uit tekstuele beschrijvingen die kunnen wedijveren met de kwaliteit van professionele menselijke kunstenaars.'

Het systeem is getraind op een dataset van tekst-beeldparen, bestaande uit ongeveer 1,3 miljoen afbeeldingen en bijschriften van internet die zijn geschraapt en samengesteld door OpenAI. De trainingsgegevens werden vervolgens gebruikt om het GPT-3-model te verfijnen, zodat het afbeeldingen kon genereren uit tekstuele beschrijvingen.

OpenAI zegt dat het systeem afbeeldingen van 'hoge kwaliteit' kan genereren uit een breed scala aan tekstuele beschrijvingen, waaronder abstracte, concrete of zelfs poëtische.

Naast het Chihuahua-voorbeeld zijn er andere voorbeelden van afbeeldingen die door DALL·E 2 zijn gemaakt, zoals een correct weergegeven portret van Adolf Hitler, een afbeelding van een draak gemaakt van groenten en een afbeelding van de Mona Lisa gemaakt van toast.

Het systeem kan ook beelden genereren van dingen die niet bestaan, zoals een 'floof' (een verzonnen dier) of een 'tulpa' (een gedachtevorm).

Over het algemeen zijn de resultaten indrukwekkend, en OpenAI zegt dat het systeem 'nieuwe mogelijkheden opent voor het genereren van afbeeldingen uit tekstuele beschrijvingen'.

VANAF E 2 Dit CLIP-systeem zet tekstinformatie om in visuele informatie. Dit is een encoder-decoder-paradigma, wat betekent dat wanneer invoertekst wordt geleverd, deze eerst wordt geconverteerd naar machine-invoer, vervolgens wordt verwerkt door het systeem en uiteindelijk wordt doorgegeven aan de decoder, die de gecodeerde gegevens omzet in een afbeelding.

Wat is DALL E 2

Wat is DALL·E 2?

Dit is de nieuwste generatie van DALL·E, een generatief taalmodel dat zinnen gebruikt om geheel nieuwe visuele effecten te creëren. De DALL E 2 is een enorm 3,5V-model, maar niet zo massief als de GPT-3. Interessant is dat hij ook lichter is dan zijn voorganger (12B). In termen van uitlijning van de beschrijving en fotorealisme is DALL·E 2 70% beter dan DALL·E 2 ondanks zijn grotere formaat.

DALL.E 2- uitleg voor beginners met voorbeelden

Meer specifiek is DALL·E 2 een hiërarchisch voorwaardelijk tekstbeeldsynthesemodel dat diep leren voor natuurlijke taalverwerking combineert met computervisie voor het genereren van beelden. Het doel is om twee modellen te trainen en de trainingsset bestaat uit gekoppelde afbeeldingen en beschrijvingen. De eerste is a priori die, gegeven een geschreven titel, kan worden getraind om een CLIP-beeldinsluiting te genereren. We hebben dan een decoder die bij het insluiten van een CLIP-afbeelding (en bijschrift, indien aanwezig), een getrainde afbeelding kan genereren.

DALLE 2 is getraind met behulp van honderden miljoenen foto's met bijschriften van internet, en sommige van die afbeeldingen zijn verwijderd en herschikt om te veranderen wat het model leert. Het haalt meerdere afbeeldingsopties op CLIP-bijlagen en gebruik het dan decoder ga door elk van hen. Het creëert vervolgens een interessante mix van al die informatie, gegeven de input van de gebruiker.

Voorbeeld DALL IS 2

Laten we een spelletje spelen om DALL·E te begrijpen. Laten we het opsplitsen in de volgende drie stappen.

Stel je voor dat regenbogen, wolken en eenhoorns in de blauwe lucht vliegen. Stel je voor hoe een foto eruit zou kunnen zien in je verbeelding. Mensen komen het dichtst in de buurt van de perfecte analoog van een ingebedde afbeelding, en de foto die zojuist in je hoofd opkwam, is daar een perfect voorbeeld van. Naar het eindproduct kun je alleen maar gissen, maar je hebt wel een goed idee van wat er allemaal in moet komen te staan. Het a priori-model brengt de lezer van de woorden in een zin naar een scène in zijn of haar verbeelding.
Nu kunt u beginnen met tekenen. Wat unCLIP doet, is je mentale beeld omzetten in een echte schets. Nu kun je nauwkeurig een ander personage maken met dezelfde beschrijving, met dezelfde basisstatistieken, maar met een geheel nieuwe visuele stijl. DALL·E 2 kan op deze manier ook unieke afbeeldingen genereren van een bestaande afbeelding die op deze manier is ingesloten.
Besteed aandacht aan de schets die je hebt gemaakt. Dit is wat er gebeurt als je de beschrijving schetst van 'een eenhoorn in het midden van de wolken, en een regenboog rijst op tegen de lucht'. Onderzoek nu de afbeelding en tekst om te bepalen wat de ander het beste illustreert (zon, huis, boom, enz.) en wat het onderwerp, de stijl, de kleuren, enz. het beste illustreert. Wat CLIP doet, is kenmerken coderen. tekst en afbeeldingen.

Nu we weten wat DALL-E is, gaan we naar het volgende gedeelte en begrijpen we de functies ervan.

Tip: Hoe realistische afbeeldingen te maken met de DALL-E-2 AI-service

Kenmerken DALL E 2

Hieronder staan de specificaties van DALL·E 2.

variaties
Kleuring
Tekst verschillen

Laten we er in detail over praten.

hoe visitekaartjes te maken in Word 2010

1] Variaties

DALL·E 2 gaat verder dan alleen het vertalen van een zin naar een beeld. OpenAI kan experimenteren met het generatieve proces en verschillende resultaten produceren voor een bepaalde handtekening dankzij robuuste CLIP-inbeddingen. Wat CLIP 'ziet' in zijn 'mind' is wat het belangrijk vindt uit de input (blijft hetzelfde voor alle afbeeldingen) en wat er vervangen kan worden (wat verandert voor verschillende afbeeldingen). Waar mogelijk zal DALL·E 2 zowel 'zinvolle informatie... als esthetische aspecten' behouden.

2] Kleuren

DALL·E 2 kan bestaande foto's aanpassen met automatische vulling. In het volgende voorbeeld is de linkerafbeelding de originele afbeelding en op de middelste en rechterfoto is het element op verschillende plaatsen getekend. DALL·E 2 voegt een extra element toe aan de Picture Style. Het werkt ook texturen en reflecties bij om het nieuwe element weer te geven.

Lezen : Wat kunt u doen met ChatGPT

3] Tekstverschillen

DALL·E 2 converteert afbeeldingen met behulp van tekstverschillen. DALL·E 2 heeft ook geavanceerde interpolatiemogelijkheden waarmee u objecten kunt wijzigen. Een Twitter-gebruiker kon zijn iPhone 'unmordeniseren'. twitter.com om het te controleren.

Als je van deze functies houdt, hoef je alleen maar naar te gaan openai.com en schrijf je dan in. U kunt een nieuw account maken of uw bestaande Microsoft- of Google-accounts gebruiken om u aan te melden. Als je dat eenmaal hebt gedaan, krijg je wat gratis credits, als je meer wilt, moet je ervoor betalen.

Dit zijn enkele kenmerken van DALL·E 2, het heeft veel geweldige use-cases, maar het wordt altijd aanbevolen om niet te veel op AI-tools te vertrouwen. Het zijn tenslotte niets anders dan hulpmiddelen die worden gebruikt om de klus te klaren, ze kunnen nooit iemands emotionele intelligentie vervangen.

Lees ook: De beste deepfake-apps, -software en -websites.