DALL-E

A Wikipédiából, a szabad enciklopédiából
DALL·E
A DALL·E által készített kép a következő leírás alapján: „Plüssmedvék víz alatt az 1990-es évek technológiájával MI-kutatáson dolgoznak”
A DALL·E által készített kép a következő leírás alapján: „Plüssmedvék víz alatt az 1990-es évek technológiájával MI-kutatáson dolgoznak”

FejlesztőOpenAI
Első kiadás2021. január 5.
Kategória
A DALL·E weboldala

A DALL-E (stilizálva: DALL·E) és a DALL-E 2 gépi tanuló mesterséges intelligenciák, amiket az OpenAI készített és képeket hoz létre egy szöveges leírás alapján. A DALL-E-t 2021 januárjában jelentette be az OpenAI és a GPT-3 egy verzióját használjak képek készítésére.[1] 2022 áprilisában az OpenAI bejelentette a DALL-E 2 kiadását, amivel az volt a céljuk, hogy valóságszerűbb képeket tudjanak generálni, jobb felbontásban.[2]

Az OpenAI nem adta ki egyik verzió forráskódját se, de részletei elérhetőek a cég hivatalos weboldalán.[1] A DALL-E 2 2022 júliusában érte el a béta fázist és 1 millió embert hívtak meg a tesztelésre.[3][4] Több imitációt is kiadtak más cégek, kisebb befektetésekkel és sokkal kevesebb adatforrással.[5][6][7]

A szoftver neve a WALL·E Pixar-karakter és Salvador Dalí spanyol művész nevén alapuló szóösszerántás.[1][8]

Technológia[szerkesztés]

A Generative Pre-trained Transformer (GPT) modellt az OpenAI 2018-ban hozta létre.[9] Az első kiadás alapján hozták létre a GPT-2-t 2019-ben,[10] majd a GPT-3-t 2020-ban.[11] A DALL-E modellje a GPT-3 multimodális implementációja, ami „szöveget pixelekre cserél.”[1][12] A DALL-E 2 3,5 milliárd paramétert használ, ami kevesebb, mint elődje, 12 milliárddal.[13]

A DALL-E-t a CLIP-pel (Contrastive Language-Image Pre-training) együtt fejlesztették ki és jelentették be. A CLIP egy külön model, ami 400 millió képet tud összepárosítani szöveggel.[1][14][15] A fő feladata, hogy átnézze azokat a képeket, amiket a DALL-E létrehozott és kiválasztja közülük a leginkább megfelelő végeredményeket.[8][14]

Galéria[szerkesztés]

A DALL-E (vagy DALL-E 2) által készített képek válogatása, azok leírásával

Jegyzetek[szerkesztés]

  1. a b c d e Johnson, Khari: OpenAI debuts DALL-E for generating images from text (amerikai angol nyelven). VentureBeat, 2021. január 5. (Hozzáférés: 2022. szeptember 29.)
  2. DALL·E 2 (angol nyelven). OpenAI. (Hozzáférés: 2022. szeptember 29.)
  3. DALL·E Now Available in Beta (angol nyelven). OpenAI, 2022. július 20. (Hozzáférés: 2022. szeptember 29.)
  4. Surreal or too real? Breathtaking AI tool DALL-E takes its images to a bigger stage”, NPR.org (Hozzáférés: 2022. szeptember 29.) (angol nyelvű) 
  5. Marshall, Mo: How DALL-E 2 could solve major computer vision challenges (amerikai angol nyelven). VentureBeat, 2022. április 16. (Hozzáférés: 2022. szeptember 29.)
  6. Knight, Will. „Inside DALL-E Mini, the Internet's Favorite AI Meme Machine”, Wired (Hozzáférés: 2022. szeptember 29.) (amerikai angol nyelvű) 
  7. Midjourney (angol nyelven). Midjourney. (Hozzáférés: 2022. szeptember 29.)
  8. a b Coldewey, Devin: OpenAI's DALL-E creates plausible images of literally anything you ask it to (amerikai angol nyelven). TechCrunch, 2021. január 5. (Hozzáférés: 2022. szeptember 29.)
  9. Improving Language Understanding by Generative Pre-Training. (Hozzáférés: 2022. szeptember 29.)
  10. Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilua: Language models are unsupervised multitask learners. (Hozzáférés: 2022. szeptember 29.)
  11. Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (22 July 2020). "Language Models are Few-Shot Learners".
  12. Tamkin, Alex; Brundage, Miles; Clark, Jack; Ganguli, Deep (2021). "Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models".
  13. Ramesh, Aditya, Alex (2022. április 12.). „Hierarchical Text-Conditional Image Generation with CLIP Latents”. arXiv:2204.06125 [cs].  
  14. a b This avocado armchair could be the future of AI (angol nyelven). MIT Technology Review. (Hozzáférés: 2022. szeptember 29.)
  15. 'DALL-E' AI generates an image out of anything you describe (amerikai angol nyelven). Engadget. (Hozzáférés: 2022. szeptember 29.)