نوشته بلاگ

JEPA چیست؟ معماری پیش‌بینی مشترک (Joint Embedding Predictive Architecture) به زبان ساده

اردیبهشت ۲۷, ۱۴۰۴ آموزش, تخصصی توسط khmahdi

دنیای هوش مصنوعی این روزها پر از مدل‌های غول‌پیکری مثل GPT است که می‌توانند متن تولید کنند یا تصاویر خیره‌کننده بسازند. اما آیا این مدل‌های مولد تمام ماجرا هستند؟ یان لکون (Yann LeCun) – یکی از پیشگامان یادگیری عمیق و دانشمند ارشد هوش مصنوعی در شرکت متا – اعتقاد دارد که آیندهٔ هوش مصنوعی در رویکرد دیگری نهفته است. او می‌گوید برای ساخت هوش مصنوعی شبیه به انسان، مدل‌ها باید «بدانند دنیا چگونه کار می‌کند» و بتوانند دست به پیش‌بینی بزنند. به بیان دیگر، یادگیری صرفاً از طریق پیش‌بینی‌های غیرمولد (بدون تولید صریح داده) کلید ماجراست. اینجاست که معماری پیشنهادی او یعنی JEPA (مخفف Joint Embedding Predictive Architecture) وارد صحنه می‌شود.

در این مطلب دوستانه و خودمانی می‌خواهیم ببینیم JEPA دقیقاً چیست، چگونه کار می‌کند، چه تفاوتی با روش‌های رایج مثل GPT یا اتواینکودرها و مدل‌های متضاد دارد، چرا متا روی آن سرمایه‌گذاری کرده، و چه دستاوردهایی تا امروز داشته است. پس با یک استکان چایی همراهمون بشید تا بهتون توضیحش بدیم!

JEPA دقیقاً چیست و چگونه کار می‌کند؟

تصور کنید تکه‌ای از یک تصویر یا یک صحنه‌ی ویدئویی را دیده‌اید و می‌خواهید حدس بزنید در بخش پنهان شده یا فریم بعدی چه چیزی وجود دارد. JEPA دقیقاً با همین ایده کار می‌کند: این معماری دو ورودی مرتبط را می‌گیرد (برای مثال یک تصویر ناقص و بخش پنهان آن، یا یک فریم و فریم بعدی ویدئو) و یاد می‌گیرد بازنمایی‌های معنایی آن‌ها را طوری تولید کند که از روی بازنمایی قسمت معلوم (زمینه) بتوان بازنمایی قسمت مجهول (هدف) را پیش‌بینی کرد. در واقع به جای حدس زدن پیکسل‌به‌پیکسل قسمت پنهان، JEPA سعی می‌کند فهم کلی یا ویژگی‌های معنایی آن قسمت را پیش‌بینی کند. این بازنمایی‌های معنایی، اطلاعات اساسی صحنه (مثل اشیاء و روابط آنها) را در خود دارند و جزئیات بی‌اهمیت را حذف می‌کنند.

در معماری JEPA معمولاً سه جزء اصلی وجود دارد: یک encoder زمینه که ورودی مشاهده‌شده (مثلاً قسمت معلوم تصویر یا فریم فعلی ویدئو) را به یک بردار انتزاعی پرمعنا تبدیل می‌کند؛ یک encoder هدف که قسمت هدف (مثلاً بخش مخفی تصویر یا فریم بعدی) را به بردار معنایی متناظرش تبدیل می‌کند (فقط برای محاسبهٔ خطا در زمان آموزش استفاده می‌شود)؛ و یک ماژول پیش‌بینی‌کننده که وظیفه دارد بر اساس بازنمایی زمینه، بازنمایی هدف بعدی را حدس بزند. هدف نهایی این است که بردار انتزاعی شده تا حد ممکن به بردار هدف واقعی نزدیک شود. جالب اینجاست که مدل تلاش نمی‌کند همه‌چیز را عیناً بازسازی کند – فقط می‌خواهد بخش‌های مهم و قابل‌پیش‌بینی را درست دربیاورد و از جزئیات غیرضروری صرف‌نظر می‌کند.

برای درک شهودی، بیایید یک مثال بزنیم: تصویر یک گربه روی چمن را در نظر بگیرید که صورت گربه پوشانده شده است. یک مدل مولد کلاسیک (مثل یک اتواینکودر) احتمالاً سعی می‌کند پیکسل‌های دقیق چشم و سبیل گربه را حدس بزند. اما JEPA می‌گوید: “لازم نیست دقیقا شکل چشم را بدانم، مهم این است که بفهمم این یک گربه است و صورتش باید شبیه صورت یک گربه باشد.” پس encoder زمینه ممکن است ویژگی‌هایی مثل “بدن یک حیوان کوچک با خز نارنجی” را استخراج کند و پیش‌بینی‌کننده خروجی‌اش را تبدیل به ویژگی‌های “صورت یک گربه نارنجی” کند. در نهایت هدف این نیست که تصویر را نقاشی کند، بلکه درک کند در آن بخش چه چیزی باید باشد.

معماری JEPA همچنین به شکلی طراحی شده که بتواند با عدم قطعیت و حالت‌های مختلف آینده کنار بیاید. به عنوان مثال در پیش‌بینی فریم ویدئو، همیشه اندکی عدم قطعیت وجود دارد (مثلاً حرکت برگ‌های درخت در باد قابل پیش‌بینی دقیق نیست). JEPA دو راه برای مواجهه با این مسأله دارد: اول اینکه encoder‌ها اطلاعات خیلی نامطمئن یا شانسی را عمداً کنار می‌گذارند تا وارد بردار معنایی نشوند. دوم اینکه JEPA می‌تواند یک متغیر پنهان z در مدل داشته باشد که نمایانگر عواملی در آینده است که از روی وضعیت فعلی قابل تشخیص نیستند. مدل می‌تواند با تغییر دادن z سناریوهای مختلف ممکن را در نظر بگیرد؛ انگار می‌گوید “اگر فلان عامل مخفی جور دیگری باشد، چه اتفاقی می‌افتد؟”. البته برای سادگی از جزئیات بیشتر این بخش عبور می‌کنیم، اما همین قدر بدانیم که JEPA طوری طراحی شده که هم اطلاعات مهم را حفظ کند و هم برای چیزهای غیرقابل‌پیش‌بینی انعطاف‌پذیر باشد.

نکتهٔ مهم دیگر این است که JEPA محدود به یک گام پیش‌بینی نیست. ما می‌توانیم چندین JEPA را پشت هم قرار دهیم تا پیش‌بینی‌های چندمرحله‌ای انجام دهد یا ساختاری سلسله‌مراتبی بسازیم که در سطوح معنایی مختلف پیش‌بینی کند. این شبیه آن است که مدل در کوتاه‌مدت چیزهای جزئی را حدس بزند و همزمان یک مدل دیگر روند کلی درازمدت را پیش‌بینی کند. این ایده در نهایت می‌تواند به مدلی منجر شود که یک «مدل جهان» داشته باشد؛ یعنی درونی برای خودش شبیه‌سازی کند که اگر فلان کار انجام شود یا فلان اتفاق بیافتد، بعدش چه خواهد شد.

JEPA چه فرقی با GPT، اتواینکودر یا روش‌های متضاد دارد؟

حالا که با اصل قضیهٔ JEPA آشنا شدیم، بیایید مقایسه کنیم و ببینیم چه تفاوت‌ها و شباهت‌هایی با روش‌های دیگر یادگیری ماشین دارد؛ روش‌هایی که احتمالاً نامشان به گوشتان خورده: مدل‌های مولد مثل GPT (در پردازش زبان) یا مدل‌های diffusion (در تولید تصویر)، اتواینکودرها، و روش‌های یادگیری متضاد (Contrastive Learning) که در یادگیری خودنظارتی محبوب بوده‌اند.

۱. مقایسه با مدل‌های مولد (مثل GPT یا diffusion): مدل‌های مولد اساساً دنباله‌روی داده‌های یادگیری هستند؛ یعنی یاد می‌گیرند بعد از یک ورودی مشخص، چه خروجی‌ای در داده‌های واقعی می‌آید و همان را تولید می‌کنند. مثلاً GPT را در نظر بگیرید: این مدل با دیدن یک کلمه، کلمهٔ بعدی را حدس می‌زند و عین همان را تولید می‌کند. یا مدل‌های diffusion که یاد گرفته‌اند از نویز، تصویری تولید کنند که در جزئیات شبیه تصاویر دنیای واقعی باشد. این مدل‌ها ناچارند همهٔ جزئیات را پیش‌بینی کنند – حتی جزئیاتی که شاید تصادفی یا غیرقابل‌پیش‌بینی باشند. یان لکون می‌گوید روش‌های مولد در حوزهٔ متن خوب کار می‌کنند، اما برای دنیای واقعی (تصویر، ویدئو، روباتیک…) مناسب نیستند چون دنیای واقعی پر از جزئیات ریز و نویز است. مدل مولد اگر بخواهد تک‌تک پیکسل‌های بعدی یک ویدئو را پیش‌بینی کند، باید حتی حرکت تصادفی برگ‌های درخت در باد یا شکل دقیق موج‌های آب را هم حدس بزند – کاری که عملاً غیرممکن است یا نیاز به داده و محاسبات غول‌آسا دارد. نتیجه اینکه مدل‌های مولد اغلب ظرفیت‌شان صرف چیزهای بی‌ربط می‌شود و ممکن است اشتباهاتی کنند که یک انسان هرگز مرتکب نمی‌شود، چون انسان‌ها به جای جزئیات کم‌اهمیت، روی مفاهیم کلی تمرکز می‌کنند.

در مقابل، JEPA عمداً مولد نیست. این معماری قرار نیست کل خروجی (مثلاً تصویر یا متن کامل) را تولید کند، بلکه همان‌طور که گفتیم هدفش پیش‌بینی یک بازنمایی معنایی است. به قول محققان متا، JEPA فقط اطلاعات لازم و قابل‌پیش‌بینی را در آن بازنمایی نگه می‌دارد و باقی را کنار می‌گذارد. این رویکرد دو مزیت بزرگ دارد: اول اینکه مدل به جای تلف‌کردن نیرویش روی حدس زدن هر پیکسل، روی اطلاعات سطح بالا و مفهومی تمرکز می‌کند (مثلاً حرکت کلی اجسام، روابط علت و معلولی). دوم اینکه از نظر محاسباتی به‌صرفه‌تر و کارآمدتر است. گزارش شده که مدل‌های JEPA در عمل ۱٫۵ تا ۶ برابر کارآمدتر از مدل‌های مولد مشابه هستند، چون با حذف جزئیات غیرقابل پیش‌بینی، هم آموزش سریع‌تر می‌شود و هم دادهٔ کمتری برای رسیدن به همان دقت نیاز است. به عنوان نمونه، نسخهٔ ویدئویی JEPA (مدل V-JEPA) توانسته با استفاده از همین ترفند (پیش‌بینی در فضای معنایی به‌جای فضای پیکسل)، با تعداد ویدئوی آموزشی کمتر به همان دقت یا بهتر از روش‌های مولد مبتنی بر پیش‌بینی پیکسل دست یابد.

به زبان ساده، تفاوت دیدگاه JEPA و مدل مولد مثل فرق بین پیش‌بینی مفهوم کلی و تولید جزئیات دقیق است. مدل‌های مولد مثل نویسنده‌ای هستند که می‌خواهد ادامهٔ داستان را کلمه به کلمه عیناً بنویسد؛ اما JEPA مثل کسی است که تلاش می‌کند بفهمد ادامهٔ داستان چه اتفاقی می‌افتد بدون آنکه لزوماً دیالوگ یا توصیف صحنه را کلمه به کلمه بداند. این یعنی JEPA بیشتر به فهمیدن گرایش دارد تا صرفاً تولید کردن.

۲. مقایسه با اتواینکودرها: اتواینکودر (Autoencoder) یک نوع مدل خودنظارتی قدیمی‌تر است که کارش فشرده‌سازی و بازسازی داده‌هاست. شما یک ورودی (مثلاً یک تصویر) را به اتواینکودر می‌دهید؛ بخش encoder آن را به یک بردار کوچکتر (کد) تبدیل می‌کند و بخش decoder تلاش می‌کند از روی آن کد، دوباره تصویر اصلی را بسازد. اگرچه ایدهٔ اتواینکودر شبیه JEPA است از این جهت که هر دو بازنمایی معنایی را یاد می‌گیرند، اما تفاوت مهم در هدف آموزش آن‌هاست. اتواینکودر مجبور است تصویر اصلی را کاملاً بازسازی کند؛ یعنی کد باید حاوی تمام جزئیات حتی نویز و آشوب هم باشد تا decoder بتواند هر پیکسل را دربیاورد. در واقع در اتواینکودر اگر مدل نتواند مثلاً تک‌تک لکه‌های روی پوست پلنگ را بازسازی کند، جریمه می‌شود. این باعث می‌شود که کد یادگرفته‌شده گاهی شامل ویژگی‌های کم‌ارزش یا تصادفی هم باشد.

در مقابل، JEPA می‌گوید “لازم نیست هرآنچه در ورودی بود در بازنمایی حفظ کنم؛ فقط آنچه را نگه می‌دارم که به دردم برای پیش‌بینی بخش دیگر بخورد.” بنابراین تابع هزینه (loss) در JEPA به جای فضای ورودی (پیکسل‌ها) در فضای معنایی تعریف می‌شود. اگر بخشی از ورودی قابل پیش‌بینی نیست (مثل نویز)، نبودش در بازنمایی جریمه‌ای ندارد. این تفاوت ظریف اما اساسی باعث می‌شود بازنمایی JEPA تمرکز بیشتری روی ویژگی‌های با معنای تصویر داشته باشد تا جزئیات سطح پیکسل. به بیان دیگر، یک اتواینکودر ممکن است برای تصویر یک سیب قرمز، کدی تولید کند که شامل میزان درخشندگی هر نقطه از سیب باشد؛ ولی JEPA احتمالاً کدی می‌سازد که می‌گوید “یک میوهٔ گرد قرمز در وسط تصویر هست” و کاری به بافت دقیق پوست سیب ندارد چون برای پیش‌بینی باقی صحنه بی‌فایده است.

نکتهٔ فنی دیگری هم هست: اتواینکودرها معمولا تک‌ورودی هستند (خود ورودی را بازسازی می‌کنند)، ولی JEPA دوبخشی است – یعنی یک ورودی زمینه و یک ورودی هدف دارد. این ساختار دومرحله‌ای (encoding دو بخش و سپس مقایسهٔ بازنمایی‌ها) از لحاظ جلوگیری از یادگیری بیهوده خیلی کمک می‌کند. اگر یک اتواینکودر همه‌چیز را به صفر تبدیل کند، یک راه‌حل کم‌هزینه برای loss است (اصطلاحاً تصاویر سیاه را بازسازی کند، البته اگر طوری طراحی شود)؛ اما JEPA اگر تلاش کند تمام بردارها را ثابت کند، پیش‌بینی‌کننده دیگر نمی‌تواند بین دو بخش ارتباط برقرار کند و خطای پیش‌بینی کم نخواهد شد. بنابراین JEPA ذاتاً نیاز دارد اطلاعات مفید را واقعاً استخراج کند و نمی‌تواند کاملاً میان‌بر بزند. (البته در عمل برای اطمینان، ترفندهایی مثل به‌کارگیری آپدیت نمایی وزن‌ها در encoder هدف یا عدم اشتراک وزن بین encoderها استفاده می‌شود تا از فروپاشی بازنمایی جلوگیری شود، که جزئیاتش از حوصله این بحث خارج است.)

۳. مقایسه با روش‌های یادگیری متضاد (Contrastive): در سال‌های اخیر روش‌های خودنظارتی متعددی مثل SimCLR، MoCo، BYOL و غیره مطرح شدند که مبتنی بر ایدهٔ یادگیری متضاد هستند. ایدهٔ کلی این روش‌ها این است که مدل با گرفتن دو نسخه‌ی تغییرشکل‌یافته از یک تصویر (مثلاً یک عکس را دوبار با برش یا رنگ‌های متفاوت می‌بیند)، یاد می‌گیرد بازنمایی‌های یکسانی برای آن‌ها تولید کند؛ در حالی که برای تصاویر متفاوت بازنمایی‌های دور از هم بسازد. به عبارت دیگر، مدل هرچه اختلاف مربوط به تغییرات ظاهری (چرخش، نور، نویز) است را در بازنمایی نادیده می‌گیرد و فقط ماهیت شیء یا صحنه را حفظ می‌کند. این تکنیک به موفقیت‌های چشمگیری در یادگیری ویژگی‌های تصویری انجامیده است. اما مشکلات خودش را هم دارد؛ از جمله اینکه نیازمند طراحی هوشمندانهٔ “تغییرات خوب” و حتی استفاده از نمونه‌های منفی است تا مدل دچار راه‌حل‌های بد (مثل همه‌چیز را یک بردار ثابت کردن) نشود. مثلا اگر خیلی تغییرات شدید نباشد، مدل ممکن است یاد بگیرد هر تصویری هرطور بود همان را بدهد (فروپاشی)؛ یا اگر تغییرات خیلی سخت باشند، مدل ممکن است در واقع ویژگی‌های معنایی را هم از دست بدهد. علاوه بر این، در روش‌های متضاد معمولاً تنظیمات بسیاری (از نوع افزوده‌سازی داده تا دمای softmax برای کنتراست) دخیل‌اند که فرآیند آموزش را پیچیده می‌کند.

در مقابل، JEPA یک راه میانه و هوشمندانه بین یادگیری مولد و متضاد ارائه می‌دهد. بجای اینکه صریحاً به مدل بگوییم “این دو نمای ورودی را یکسان کن و آن دو تای دیگر را متفاوت”، ما به مدل می‌گوییم “از روی یکی، دیگری را پیش‌بینی کن”. این‌گونه مدل خودبه‌خود یاد می‌گیرد برای موفق شدن در این پیش‌بینی، باید ویژگی‌های پایدار و با معنی را در بازنمایی‌ها نگه دارد و نسبت به تفاوت‌های نامربوط حساس نباشد. نکته اینجاست که JEPA نیازی به نمونهٔ منفی یا کنتراست مستقیم ندارد؛ چون هدف پیش‌بینی کردن ذاتاً مدل را مجبور می‌کند بازنمایی مفید یاد بگیرد. همچنین جالب است بدانید I-JEPA (نسخه تصویری JEPA) توانسته به کیفیتی هم‌سطح روش‌های متضاد دست یابد بدون نیاز به اعمال انبوهی از تغییر شکل‌های تصادفی روی تصاویر. در واقع در I-JEPA تنها تغییر داده اعمال‌شده ماسک کردن چند تکه از تصویر است، و با همین روش ساده، مدل ویژگی‌های معنایی عمیقی یاد گرفته که مثلاً برای دسته‌بندی یا تشخیص شیء بسیار خوب عمل می‌کنند. این دستاورد اهمیت دارد چون نشان می‌دهد شاید بسیاری از پیچیدگی‌های روش‌های متضاد ضروری نباشند و بتوان با رویکرد پیش‌بینانه‌ی JEPA به ساده‌سازی رسید.

خلاصه اینکه: روش‌های متضاد بر «یکی کردن دو چیز یکسان و دور کردن چیزهای متفاوت» تکیه دارند، ولی JEPA بر «پیش‌بینی کردن از روی اطلاعات ناقص» متکی است. هر دو رویکرد سعی می‌کنند مدل را وادار به یادگیری بازنمایی مفید کنند، اما JEPA این کار را با هدفمندی متفاوتی انجام می‌دهد که از سختگیری کمتر ولی هدف‌دار بودن بیشتر برخوردار است.

چرا یان لکون و متا از JEPA استفاده می‌کنند؟ چه مزایایی دارد؟

حال ممکن است بپرسید با وجود این همه مدل موفق (از GPT گرفته تا Vision Transformerهای مختلف)، چه دلیلی دارد متا سراغ معماری تازه‌ای مثل JEPA برود؟ پاسخ را باید در دیدگاه بلندمدت‌تر و نقاط ضعف مدل‌های فعلی جست‌وجو کنیم. یان لکون معتقد است مدل‌های کنونی (به‌خصوص مدل‌های مولد بزرگ) علی‌رغم توانایی‌های چشمگیرشان، هنوز از برخی جهات «خنگ» هستند! او در یک همایش علمی صراحتاً گفت: *«الآن یادگیری ماشین یک‌جورهایی به درد نخور شده؛ برای داشتن سیستم‌های هوشمندتر، ماشین‌ها باید بفهمند دنیا چگونه کار می‌کند و بتوانند به خاطر بسپارند، استدلال کنند و برنامه‌ریزی کنند»*. از نظر او، مدل‌های مولد مثل ChatGPT شاید در تولید متن خوب باشند اما درک واقعی از جهان ندارند. آنها یک‌جور طوطی‌وار الگوهای آماری را بازتولید می‌کنند، در حالی که برای دست یافتن به هوش انسانی، باید مدلی داشت که مثل نوزاد انسان از تجربهٔ جهان، قوانین و مفاهیم بنیادی را درونی‌سازی کند.

JEPA دقیقاً برای همین منظور طراحی شده است. لکون می‌گوید: *«آیندهٔ هوش مصنوعی غیرمولد است. [مدل مولد] برای متن جواب می‌دهد، اما برای چیز دیگری کارا نیست»*. به جای اینکه سعی کنیم یک مدل همه‌فن‌حریف داشته باشیم که تک‌تک پیکسل‌ها یا کلمات بعدی را درست حدس بزند، بهتر است سیستمی داشته باشیم که یک شبیه‌ساز درونی از دنیا داشته باشد؛ یعنی بتواند صرفاً با دیدن، تصور کند بعدش چه می‌شود. JEPA در واقع پیاده‌سازی همین ایده است: «پیش‌بینی کردن اطلاعات گمشده به شکل معنایی و درونی». لکون این معماری را به عنوان جزء کلیدی مسیری که او «هوش ماشینی پیشرفته (Advanced Machine Intelligence)» می‌نامد معرفی کرده است. او حتی پیش‌بینی کرده که طی چند سال آینده، مدل‌های مبتنی بر JEPA جایگزین رویکرد فعلی LLMها خواهند شد یا دست‌کم ترکیب خواهند شد تا به سیستم‌های هوشمندتر بیانجامند.

از شعار که بگذریم، مزایای عملی JEPA هم قابل توجه‌اند:

تمرکز بر مفاهیم به جای جزئیات: همان‌طور که اشاره شد، JEPA مانند مغز انسان عمل می‌کند که جزئیات پرنویز را فیلتر کرده و به ساختارهای کلی توجه می‌کند. یک مدل مولد اگر بخواهد فیلم آینده را پیش‌بینی کند مجبور است مثلاً حرکت تک‌تک برگ‌ها را مدل کند، ولی JEPA می‌گوید “فکر کردن به تکان خوردن برگ‌ها اتلاف وقت است، فقط باید بدانم شاخهٔ درخت کدام سمت خم می‌شود.” این رویکرد باعث می‌شود مدل معقول‌تر و پایدارتر باشد. در واقع JEPA می‌تواند «از خیر جزئیات غیرقابل‌ پیش‌بینی بگذرد» و ظرفیت خود را صرف یادگیری روابط و قواعد پایدار جهان کند. به عنوان مثال، در یک ویدئو از پرتاب توپ به دیوار، یک مدل JEPA یاد می‌گیرد قانون کلی فیزیک (برخورد توپ و بازگشت آن) را بفهمد، بدون آنکه درگیر پیش‌بینی دقیق بافت سطح توپ یا سایهٔ لحظه‌ای آن روی دیوار شود.
کارایی داده و محاسبات: پژوهش‌های متا نشان داده‌اند که JEPA در یادگیری بازنمایی‌ها بسیار مقرون‌به‌صرفه‌تر از روش‌های قبلی است. در یک آزمایش، مدل I-JEPA با ۶۳۲ میلیون پارامتر (اندازه‌ای بزرگ ولی نه غول‌آسا) تنها طی ۷۲ ساعت روی ۱۶ کارت گرافیک A100 آموزش دید و نتیجه‌ای عالی به دست آورد. این مدل توانست در مسئلهٔ دسته‌بندی تصاویر ImageNet با فقط ۱۲ نمونه برچسب‌خورده برای هر کلاس به دقتی بهتر از روش‌های قبلی برسد. جالب اینکه سایر روش‌ها برای رسیدن به این دقت به ۲ تا ۱۰ برابر زمان محاسباتی بیشتر نیاز داشتند و باز هم خطای بیشتری داشتند. این نشان می‌دهد JEPA هم از نظر استفاده از دادهٔ بدون برچسب و هم در به حداقل رساندن نیاز به دادهٔ برچسب‌دار، برتری دارد. به زبان ساده، با JEPA می‌توان مدل‌هایی ساخت که کمتر یاد می‌گیرند ولی بهتر می‌فهمند! (کمیت داده را با کیفیت یادگیری جبران می‌کنند).
توانایی تعمیم و استفادهٔ چندمنظوره: یکی از آرزوهای ما داشتن مدل‌هایی است که «یک بار آموزش ببینند و برای کارهای مختلف به کار آیند». مدل‌های JEPA دقیقاً در این مسیر حرکت می‌کنند. بازنمایی‌های معنایی یادگرفته‌شده توسط JEPA آنقدر غنی و مفهومی هستند که با یک لایه‌ی نازک بالای آن می‌توان کارهای گوناگون انجام داد (اصطلاحاً ارزیابی به صورت frozen یعنی بدون نیاز به تغییر خود مدل اصلی). مثلاً شما یک مدل V-JEPA آموزش‌دیده روی ویدئو دارید؛ بدون آنکه weights اصلی‌اش را دست بزنید، می‌توانید فقط با یادگیری یک لایهٔ خطی روی خروجی encoder، آن را به یک دسته‌بند فعالیت‌های ورزشی، یک سیستم تشخیص اشیاء متحرک، یا یک تخمین‌زن حرکت آینده تبدیل کنید. این در حالی است که بسیاری از مدل‌های گذشته (چه مولد، چه متضاد) نیاز داشتند برای هر وظیفه کاملاً ریزتنظیم (fine-tune) شوند. JEPA نشان داده که می‌شود یک مدل مشترک برای چندین کاربرد داشت و تنها قسمت‌های کوچکی را متناسب با هر کاربرد آموزش داد. این ویژگی برای صنعت جذاب است چون یعنی هزینهٔ به‌کارگیری مدل در مسائل جدید پایین می‌آید.
امکان یادگیری ساختار علت و معلولی و مدل جهان: مزیت بلندپروازانه‌تر JEPA این است که راه را به سوی مدلی باز می‌کند که واقعاً دنیا را مدل کند. پیش‌بینی در فضای معنایی شباهت زیادی به نحوهٔ عملکرد مغز ما دارد. تئوری‌های علوم شناختی می‌گویند که مغز انسان مرتباً در حال پیش‌بینی حسیات آینده است و وقتی پیش‌بینی درست از آب درنیاید دچار «سورپرایز» شده و یاد می‌گیرد. JEPA نیز با پیش‌بینی مداوم، در واقع یک مدل درونی از دینامیک دنیا می‌سازد که می‌تواند پایهٔ استدلال علی (علت و معلولی) باشد. این یک تفاوت اساسی با مدل‌های صرفاً مولد مثل GPT است که هیچ درکی از علت و معلول در جهان فیزیکی ندارند. برای مثال، GPT اگر جملهٔ «من لیوان را هل دادم و …» را بخواند ممکن است «لیوان شکست» را ادامه دهد صرفاً چون در داده‌ها اینگونه بوده؛ اما JEPA (در قالب یک مدل ویدئویی) اگر ببیند صحنهٔ هل دادن لیوان را، بر اساس مدل جهان خود پیش‌بینی می‌کند لیوان می‌افتد و می‌شکند، آن هم نه به خاطر بسامد داده بلکه به خاطر فهم ضمنی قوانین فیزیکی. در بخشی بعد خواهیم دید که این حرف در عمل هم تأیید شده و JEPA درک نوعی «فیزیک شهودی» را یاد گرفته است.

در مجموع، متا و به‌خصوص یان لکون به JEPA به چشم گام اول به سوی نسل جدیدی از هوش مصنوعی نگاه می‌کنند که بتواند واقعاً مثل موجودات زنده از جهان بیاموزد. لکون صراحتاً اعلام کرده که آن‌ها قصد دارند این معماری را توسعه دهند و به تصاویر بزرگ، ویدئوها و حتی عوامل هوشمند تعمیم دهند. او باور دارد تنها با چنین رویکردی می‌توان به ماشین‌هایی رسید که روزی توانایی یادگیری و استدلال در حد انسان را پیدا کنند، چیزی که با صرف بزرگ‌کردن مدل‌های زبان به دست نخواهد آمد.

دستاوردها و نتایج JEPA تا به امروز

معماری JEPA هنوز جدید است (از پیشنهاد اولیه آن در سال ۲۰۲۲ زمان زیادی نمی‌گذرد) اما در همین مدت کوتاه مدل‌ها و نتایج جالبی بر اساس آن عرضه شده است. در این قسمت مروری می‌کنیم بر مهم‌ترین پیشرفت‌هایی که با JEPA حاصل شده و پروژه‌هایی که از آن بهره برده‌اند:

I-JEPA (مدل تصویری JEPA): اولین پیاده‌سازی موفق JEPA توسط تیم متا در ژوئن ۲۰۲۳ ارائه شد. I-JEPA روی مجموعه تصاویر بزرگ (مثل ImageNet) به صورت خودنظارتی آموزش دید و هدفش یادگیری بازنمایی تصاویر بود. همان‌طور که قبلاً گفتیم، این مدل بخش‌هایی از تصویر را ماسک می‌کرد و تلاش می‌کرد بازنمایی بخش‌های مخفی را از بخش‌های معلوم پیش‌بینی کند. نتیجه چشمگیر بود: I-JEPA توانست بدون استفاده از برچسب، ویژگی‌هایی بیاموزد که در ارزیابی‌های متعدد، بهتر از روش‌های رایج عمل کردند. مثلاً در آزمون دسته‌بندی با تعداد بسیار کم برچسب، I-JEPA رکورد جدیدی ثبت کرد و نشان داد بازنمایی آموخته‌شدهٔ آن واقعاً معنی‌دار و قابل استفاده است. نکتهٔ جالب اینجاست که I-JEPA برخلاف بسیاری از مدل‌های قبلی (مانند DINOv2 یا MAE) به تنظیمات پیچیده نیازی نداشت – نه احتیاج به انواع افزایش‌دادهٔ عجیب و غریب (crop تصادفی، تغییر رنگ شدید و …)، نه احتیاج به نمونهٔ منفی و کنتراست. همین که بخش‌هایی از تصویر را مخفی کنیم کافیست تا مدل یاد بگیرد اشیا و بافت‌ها را بفهمد. متا گزارش کرده که I-JEPA از لحاظ مقیاس‌پذیری هم بسیار خوب عمل می‌کند و با بزرگ‌تر کردن مدل، عملکرد همچنان بهتر شده است. همچنین طبق گفته‌ی لکون، I-JEPA هنوز روی دیتاست‌های عظیم‌تر امتحان نشده و او انتظار دارد اگر با داده‌های بیشتری تغذیه شود حتی از مدل‌های برتر خودمتای دیگر مثل DINOv2 هم پیشی بگیرد.
MC-JEPA (مدل حرکت-محتوا): مدت کوتاهی پس از I-JEPA، پژوهشگران متا مدل دیگری به نام MC-JEPA معرفی کردند. هدف MC-JEPA ترکیب اطلاعات ایستا و پویا در ویدئوها بود. به عبارت دیگر، این مدل می‌خواست همزمان یاد بگیرد چه چیزی در صحنه است (محتوا) و چگونه حرکت می‌کند (دینامیک). به این منظور، یک ساختار دوگانه طراحی شد که یک encoder مشترک دارد اما دو شاخهٔ پیش‌بینی‌کننده: یکی برای ویژگی‌های مربوط به حرکت و یکی برای ویژگی‌های مربوط به ظاهر جسم. با چنین مدلی می‌توانید تصور کنید که سیستم مثلاً در ویدئویی از یک خیابان، هم یاد می‌گیرد اتومبیل و عابر پیاده چیست (محتوا) و هم جهت و سرعت حرکتشان را درک کند (حرکت). MC-JEPA گامی به سوی مدل‌های چندوظیفه‌ای خودنظارتی بود و اهمیتش در دنیای واقعی این است که مثلا در رانندگی خودکار یا نظارت ویدیویی، مدل بتواند به طور خودکار هم اشیاء را بشناسد و هم اعمال/حرکات را تفسیر کند. هرچند MC-JEPA به اندازه‌ی I-JEPA سر و صدا به پا نکرد، اما نشان داد که JEPA می‌تواند انعطاف یافته و برای اهداف متنوع‌تری هم به کار رود.
V-JEPA (مدل ویدئویی JEPA): جدیدترین و شاید هیجان‌انگیزترین عضو خانوادهٔ JEPA، مدل V-JEPA است که متا در اواخر ۲۰۲۳ و اوایل ۲۰۲۴ معرفی کرد. حرف V ابتدای Video است، یعنی این مدل مخصوص یادگیری از ویدئوهای خام طراحی شده. V-JEPA یک پله بلندتر در جهت دیدگاه “مدل جهان” لکون بود، زیرا به مدل امکان می‌دهد از توالی تصاویر (زمان) دانش کسب کند. روش کار V-JEPA نیز مشابه نسخه تصویری است: تکه‌هایی از یک کلیپ ویدئویی ماسک می‌شوند (مثلاً بخش‌هایی از چند فریم پشت سر هم حذف می‌شود) و مدل باید از روی بقیه قسمت‌ها، بازنمایی بخش‌های حذف‌شده را پیش‌بینی کند. تفاوت اصلی در اینجاست که حالا بُعد زمانی هم اضافه شده و مدل باید یاد بگیرد مثلاً شیء X که در زمان t در مکان A بود، در زمان t+1 به کجا می‌رود. V-JEPA در حقیقت تلاش می‌کند همان قابلیتی را تقلید کند که ما انسان‌ها داریم: دیدن یک ویدئو و پیش‌بینی اتفاق بعدی. مثلا اگر توپ‌ی را ببینیم که به سمت دیوار می‌رود، انتظار داریم برگردد و اگر برنگردد متعجب می‌شویم.نتایج V-JEPA چشمگیر بوده است. این مدل را با حدود ۲ میلیون ویدئوی آموزشی بزرگ (از منابع متنوع) آموزش دادند و سپس روی انواع وظایف ویدئویی و تصویری ارزیابی کردند. در ارزیابی‌ها، V-JEPA توانست در بسیاری از کارها عملکرد بهتری نسبت به مدل‌های ویدئویی مبتنی بر پیکسل داشته باشد. مثلا در تشخیص حرکات اکشن در ویدئو یا درک تعامل اشیاء، V-JEPA هم در حالت freeze (یخ‌زده، بدون تغییر وزن‌ها) و هم با کمی fine-tune، از مدل‌های معروفی مثل VideoMAE و OmniMAE پیشی گرفت. این یعنی بازنمایی‌های آنقدر خوب هستند که حتی بدون تنظیم خاص هم قابل استفاده‌اند. از نظر کارایی هم، جالب است بدانید V-JEPA برای رسیدن به این دقت نیاز به دادهٔ آموزشی کمتری داشت. در یک آزمایش حتی نشان داده شد یک نسخه کوچکتر V-JEPA با فقط ۱۲۸ ساعت ویدئو آموزش (تقریباً پنج روز ویدئو)، مفاهیم بنیادی فیزیک را یاد گرفته که مدل‌های بسیار بزرگ زبانی-تصویری فاقد آن بودند!یکی از دستاوردهای شگفت‌انگیز V-JEPA همین بود: یادگیری فیزیک شهودی از ویدئوها. در اوایل ۲۰۲۵ پژوهشی منتشر شد که طی آن مدل V-JEPA را آزمودند تا ببینند آیا می‌تواند مثل یک کودک نوپا، قواعد اولیه فیزیک (مثل پایداری اجسام، جاذبه، برخوردها) را درک کند. آن‌ها از روشی به نام “آزمون نقض انتظار” (Violation of Expectation) بهره گرفتند که در علم شناختی برای سنجش درک نوزادان استفاده می‌شود. به مدل دو ویدئوی کوتاه نشان می‌دادند که یکی مطابق قوانین فیزیک بود و دیگری عمداً یک قانون را نقض می‌کرد (مثلاً توپی که به دیوار می‌خورد و ناپدید می‌شود!). مشاهده شد که V-JEPA به ویدئوهای غیرممکن واکنش متفاوتی نشان می‌دهد؛ یعنی عملاً فهمیده «این نباید اتفاق بیافتد». در شاخص‌هایی مثل ماندگاری شیء (object permanence)، تداوم حرکت و یکپارچگی شکل، این مدل امتیاز بالایی کسب کرد، در حالی که جالب است بدانید مدل‌های بزرگ زبانی-تصویری نظیر Gemini و Qwen-VL در همین آزمون‌ها تقریباً تصادفی عمل کردند و چیزی بیش از حدس کور نبودند. اهمیت این نتیجه در این است که برای اولین بار نشان داده شد یک AI می‌تواند بدون قوانین صریح برنامه‌ریزی‌شده، از طریق تماشای ویدئو به فهمی شبیه قوانین فیزیکی برسد. این همان چیزی است که سال‌ها به عنوان یکی از نقاط ضعف هوش مصنوعی مطرح می‌شد (اینکه ماشین‌ها انتزاع ندارند). اکنون با روش JEPA کورسوی امیدی پدیدار شده که با یادگیری خودنظارتی می‌توان چنین انتزاعی را کسب کرد.
سایر پروژه‌ها و گسترش‌ها: به جز سه پروژه اصلی بالا، ایدهٔ JEPA الهام‌بخش پژوهش‌های دیگری هم بوده است. برای نمونه، محققانی JEPA را برای داده‌های سه‌بعدی به‌کار برده‌اند (مثل مدلی به نام Point-JEPA برای محیط‌های سه‌بعدی)، یا در حوزه‌های خاص مثل آنالیز حرکت اسکلت (مدل S-JEPA برای داده‌های اسکلتی) و حتی ترکیب با روش‌های متضاد (مدل C-JEPA که در آن JEPA با کنتراست تلفیق شده). این‌ها نشان می‌دهد که جامعهٔ پژوهشی به JEPA علاقه نشان داده و در تلاش است قابلیت‌های آن را به دامنه‌های گوناگون گسترش دهد. از سوی دیگر، متن‌باز شدن کدهای JEPA (از جمله I-JEPA و مدل فیزیک شهودی) در گیت‌هاب نیز به توسعه‌دهندگان مستقل فرصت داده تا این مدل‌ها را تست کنند یا در پروژه‌های خودشان به کار گیرند. بنابراین JEPA در همین مدت کوتاه از یک ایده روی کاغذ تبدیل به یک خانوادهٔ مدل با دستاوردهای ملموس شده است.

وضعیت فعلی و آیندهٔ JEPA در صنعت و پژوهش

در حال حاضر JEPA بیشتر در مرحلهٔ پژوهش و توسعه است. شرکت متا به عنوان پیشتاز این رویکرد، طی سال‌های ۲۰۲۳ و ۲۰۲۴ چندین مدل JEPA (برای تصاویر و ویدئوها) را عرضه کرده و نتایج امیدوارکننده‌ای به دست آورده است. این مدل‌ها فعلاً در حد پلتفرم‌های تحقیقاتی و آزمایشی هستند و هنوز به صورت محصول نهایی در جایی مثل اینستاگرام یا فیسبوک به کار نرفته‌اند (تا جایی که من میدونم!). با این حال، جهت‌گیری متا و اظهارات صریح یان لکون نشان می‌دهد که برنامه‌های بزرگی برای JEPA در سر دارند. لکون تأکید کرده که تیم‌های متا در حال گسترش این ایده به ویدئوهای پیچیده‌تر و شاید ورودی‌های چندحسی هستند. هدف نهایی، ساخت سیستم‌هایی است که بتوانند مثل یک عامل مستقل در محیط حرکت کنند، ببینند، پیش‌بینی کنند و تصمیم بگیرند. در این چشم‌انداز، JEPA نقش “مدل جهان” را بازی می‌کند: یعنی مغز سامانه که با دیدن مداوم، قوانین دنیا را یاد گرفته و می‌تواند سناریوهای “چه می‌شود اگر…؟” را در ذهن خود شبیه‌سازی کند.

از منظر صنعتی، می‌توان آینده‌های جالبی را متصور شد. برای مثال:

در خودروهای خودران، یک شبکهٔ JEPA می‌تواند با تماشای میلیون‌ها ساعت رانندگی، یاد بگیرد که اگر یک عابر ناگهان به خیابان بدود چه اتفاقی می‌افتد و بهترین واکنش چیست. این نوع پیش‌بینی درونی می‌تواند توانایی برنامه‌ریزی و واکنش آنی خودرو را بهبود بخشد.
در ربات‌های خانگی یا صنعتی، JEPA می‌تواند نقش مغزی را داشته باشد که با دیدن اعمال خود ربات و نتایج آنها، کم‌کم می‌فهمد که “اگر این شیء سنگین را هل بدهم ممکن است بیافتد و بشکند” یا “برای برداشتن لیوان باید با فلان زاویه نزدیک شوم وگرنه لیز می‌خورد”. چنین رباتی نیاز ندارد هر قانون را انسان برایش برنامه‌نویسی کند؛ خودش مثل یک کودک با آزمون و خطا دنیا را می‌آموزد.
در حوزهٔ واقعیت مجازی (VR) و هوش مصنوعی تعاملی، JEPA می‌تواند درک عمیق‌تری از محیط مجازی به دست دهد. مثلاً یک AI در دنیای متاورس می‌تواند مسیر وقایع را پیش‌بینی کند و واکنش‌های منطقی‌تر و واقع‌گرایانه‌تری نشان دهد (فرض کنید یک NPC بازی که می‌داند اگر پل تخریب شود، باید راه دیگری برای رسیدن به شما پیدا کند).
در سیستم‌های چندرسانه‌ای، ترکیب JEPA با مدل‌های زبانی می‌تواند به دستیارهایی منجر شود که علاوه بر درک زبان، فهم تصویری و ویدئویی هم دارند. چنین دستیاری اگر از دوربین گوشی شما جهان را ببیند، شاید بفهمد که مثلا “فنجان روی میز لبهٔ خطرناکی قرار گرفته و ممکن است بیافتد” و به شما هشدار دهد – چیزی که یک مدل زبان صرف از پس آن برنمی‌آید.

از منظر پژوهشی، چالش‌های جالبی پیش روی JEPA است. یکی تعیین سطح بهینه سازی است – یعنی چقدر باید جزئیات را دور ریخت و چقدر را نگه داشت که هم پیش‌بینی ممکن باشد هم اطلاعات کافی باقی بماند. دیگر چالش، مقیاس‌دهی است: آموزش مدل‌های JEPA بسیار بزرگ (مثلاً معادل ۱۰ میلیارد پارامتر) و روی داده‌های عظیم چندحسی، نیازمند پیشرفت در الگوریتم‌ها و سخت‌افزار است. همچنین ترکیب JEPA با حافظهٔ بلندمدت و ماژول‌های تصمیم‌گیری (نظیر چیزی که لکون Configurator و Actor می‌نامد) میدان پژوهشی داغی خواهد بود؛ چون در نهایت برای داشتن یک عامل هوشمند کامل نیاز است که پیش‌بینی (JEPA)، حافظه و اقدام در یک چارچوب هماهنگ شوند.

با همهٔ این اوصاف، می‌توان گفت JEPA نمایندهٔ یک تغییر پارادایم مهم در هوش مصنوعی است. اگر رویکرد فعلی با مدل‌های مولد غول‌پیکر را موج دوم یادگیری عمیق بدانیم، JEPA احتمالاً نویدبخش موج سومی است که در آن به جای بلعیدن دادهٔ بیشتر، مدل‌ها هوشمندانه‌تر یاد می‌گیرند. حتی در میان عموم نیز این بحث فراگیر شده که مدل‌های زبانی بزرگ ممکن است به بن‌بست نزدیک شوند و چیزی فراتر نیاز داریم. JEPA یکی از جدی‌ترین نامزدهای این “چیز فراتر” است.

JEPA ما را یک قدم به ساخت ماشین‌هایی نزدیک‌تر کرده که می‌توانند «ببینند، بفهمند و آینده را تصور کنند» – ویژگی‌هایی که شالودهٔ هوش انسانی‌اند. اگرچه راه زیادی تا تحقق رؤیای یک هوش مصنوعی در سطح انسان باقی است و خود لکون هم می‌گوید این هدف ده‌ها سال زمان می‌خواهد، اما حرکت در مسیر JEPA چشم‌انداز هیجان‌انگیزی را ترسیم کرده است. باید دید در سال‌های آتی این معماری چگونه تکامل می‌یابد و آیا می‌تواند وعده‌های خود را عملی کند یا خیر. فعلاً که نتایج اولیه امیدبخش بوده‌اند و شاید چند سال دیگر، وقتی به پشت سر نگاه کنیم، JEPA را یکی از نقاط عطف مسیر هوش مصنوعی بنامیم.

اگه خیلی با موضوع حال کردید ، مقالات زیر رو بخونید ، برای اینکه JEPA رو بفهمم منابعم این ها بودند:

Yann LeCun on Joint Embedding Predictive Architectures

Meta AI Blog – I-JEPA and V-JEPA introductions

Turing Post – “What is JEPA?” Overview

Research papers on I-JEPA and V-JEPA performance

AI Base News – V-JEPA intuitive physics understanding

Encord & Medium articles – Simplified explanations of JEPA vs other methods