Multimodal Models - Vision-Language, CLIP, Stable Diffusion - Deep Learning

ב-5 בינואר 2021, OpenAI פרסמו שני papers באותו יום: CLIP ו-DALL-E. CLIP יכול לזהות אובייקטים בתמונות דרך תיאורים בשפה טבעית - עם אפס דוגמאות per class. DALL-E יכול לייצר כל תמונה מ-text prompt. שניהם עובדים בגלל רעיון אחד: ללמוד shared embedding space שבו תמונות וטקסט על אותו נושא קרובים זה לזה. הrepresentation המשותף הזה הוא הבסיס של כל ה-multimodal AI שבא אחריהם - Stable Diffusion, GPT-4V, DALL-E 3, LLaVA, Gemini.