JEPA چیست؟ معماری پیشبینی مشترک (Joint Embedding Predictive Architecture) به زبان ساده
دنیای هوش مصنوعی این روزها پر از مدلهای غولپیکری مثل GPT است که میتوانند متن تولید کنند یا تصاویر خیرهکننده بسازند. اما آیا این مدلهای مولد تمام ماجرا هستند؟ یان لکون (Yann LeCun) – یکی از پیشگامان یادگیری عمیق و دانشمند ارشد هوش مصنوعی در شرکت متا – اعتقاد دارد که آیندهٔ هوش مصنوعی در رویکرد دیگری نهفته است. او میگوید برای ساخت هوش مصنوعی شبیه به انسان، مدلها باید «بدانند دنیا چگونه کار میکند» و بتوانند دست به پیشبینی بزنند. به بیان دیگر، یادگیری صرفاً از طریق پیشبینیهای غیرمولد (بدون تولید صریح داده) کلید ماجراست. اینجاست که معماری پیشنهادی او یعنی JEPA (مخفف Joint Embedding Predictive Architecture) وارد صحنه میشود.
در این مطلب دوستانه و خودمانی میخواهیم ببینیم JEPA دقیقاً چیست، چگونه کار میکند، چه تفاوتی با روشهای رایج مثل GPT یا اتواینکودرها و مدلهای متضاد دارد، چرا متا روی آن سرمایهگذاری کرده، و چه دستاوردهایی تا امروز داشته است. پس با یک استکان چایی همراهمون بشید تا بهتون توضیحش بدیم!
JEPA دقیقاً چیست و چگونه کار میکند؟
تصور کنید تکهای از یک تصویر یا یک صحنهی ویدئویی را دیدهاید و میخواهید حدس بزنید در بخش پنهان شده یا فریم بعدی چه چیزی وجود دارد. JEPA دقیقاً با همین ایده کار میکند: این معماری دو ورودی مرتبط را میگیرد (برای مثال یک تصویر ناقص و بخش پنهان آن، یا یک فریم و فریم بعدی ویدئو) و یاد میگیرد بازنماییهای معنایی آنها را طوری تولید کند که از روی بازنمایی قسمت معلوم (زمینه) بتوان بازنمایی قسمت مجهول (هدف) را پیشبینی کرد. در واقع به جای حدس زدن پیکسلبهپیکسل قسمت پنهان، JEPA سعی میکند فهم کلی یا ویژگیهای معنایی آن قسمت را پیشبینی کند. این بازنماییهای معنایی، اطلاعات اساسی صحنه (مثل اشیاء و روابط آنها) را در خود دارند و جزئیات بیاهمیت را حذف میکنند.
در معماری JEPA معمولاً سه جزء اصلی وجود دارد: یک encoder زمینه که ورودی مشاهدهشده (مثلاً قسمت معلوم تصویر یا فریم فعلی ویدئو) را به یک بردار انتزاعی پرمعنا تبدیل میکند؛ یک encoder هدف که قسمت هدف (مثلاً بخش مخفی تصویر یا فریم بعدی) را به بردار معنایی متناظرش تبدیل میکند (فقط برای محاسبهٔ خطا در زمان آموزش استفاده میشود)؛ و یک ماژول پیشبینیکننده که وظیفه دارد بر اساس بازنمایی زمینه، بازنمایی هدف بعدی را حدس بزند. هدف نهایی این است که بردار انتزاعی شده تا حد ممکن به بردار هدف واقعی نزدیک شود. جالب اینجاست که مدل تلاش نمیکند همهچیز را عیناً بازسازی کند – فقط میخواهد بخشهای مهم و قابلپیشبینی را درست دربیاورد و از جزئیات غیرضروری صرفنظر میکند.
برای درک شهودی، بیایید یک مثال بزنیم: تصویر یک گربه روی چمن را در نظر بگیرید که صورت گربه پوشانده شده است. یک مدل مولد کلاسیک (مثل یک اتواینکودر) احتمالاً سعی میکند پیکسلهای دقیق چشم و سبیل گربه را حدس بزند. اما JEPA میگوید: “لازم نیست دقیقا شکل چشم را بدانم، مهم این است که بفهمم این یک گربه است و صورتش باید شبیه صورت یک گربه باشد.” پس encoder زمینه ممکن است ویژگیهایی مثل “بدن یک حیوان کوچک با خز نارنجی” را استخراج کند و پیشبینیکننده خروجیاش را تبدیل به ویژگیهای “صورت یک گربه نارنجی” کند. در نهایت هدف این نیست که تصویر را نقاشی کند، بلکه درک کند در آن بخش چه چیزی باید باشد.
معماری JEPA همچنین به شکلی طراحی شده که بتواند با عدم قطعیت و حالتهای مختلف آینده کنار بیاید. به عنوان مثال در پیشبینی فریم ویدئو، همیشه اندکی عدم قطعیت وجود دارد (مثلاً حرکت برگهای درخت در باد قابل پیشبینی دقیق نیست). JEPA دو راه برای مواجهه با این مسأله دارد: اول اینکه encoderها اطلاعات خیلی نامطمئن یا شانسی را عمداً کنار میگذارند تا وارد بردار معنایی نشوند. دوم اینکه JEPA میتواند یک متغیر پنهان z در مدل داشته باشد که نمایانگر عواملی در آینده است که از روی وضعیت فعلی قابل تشخیص نیستند. مدل میتواند با تغییر دادن z سناریوهای مختلف ممکن را در نظر بگیرد؛ انگار میگوید “اگر فلان عامل مخفی جور دیگری باشد، چه اتفاقی میافتد؟”. البته برای سادگی از جزئیات بیشتر این بخش عبور میکنیم، اما همین قدر بدانیم که JEPA طوری طراحی شده که هم اطلاعات مهم را حفظ کند و هم برای چیزهای غیرقابلپیشبینی انعطافپذیر باشد.
نکتهٔ مهم دیگر این است که JEPA محدود به یک گام پیشبینی نیست. ما میتوانیم چندین JEPA را پشت هم قرار دهیم تا پیشبینیهای چندمرحلهای انجام دهد یا ساختاری سلسلهمراتبی بسازیم که در سطوح معنایی مختلف پیشبینی کند. این شبیه آن است که مدل در کوتاهمدت چیزهای جزئی را حدس بزند و همزمان یک مدل دیگر روند کلی درازمدت را پیشبینی کند. این ایده در نهایت میتواند به مدلی منجر شود که یک «مدل جهان» داشته باشد؛ یعنی درونی برای خودش شبیهسازی کند که اگر فلان کار انجام شود یا فلان اتفاق بیافتد، بعدش چه خواهد شد.
JEPA چه فرقی با GPT، اتواینکودر یا روشهای متضاد دارد؟
حالا که با اصل قضیهٔ JEPA آشنا شدیم، بیایید مقایسه کنیم و ببینیم چه تفاوتها و شباهتهایی با روشهای دیگر یادگیری ماشین دارد؛ روشهایی که احتمالاً نامشان به گوشتان خورده: مدلهای مولد مثل GPT (در پردازش زبان) یا مدلهای diffusion (در تولید تصویر)، اتواینکودرها، و روشهای یادگیری متضاد (Contrastive Learning) که در یادگیری خودنظارتی محبوب بودهاند.
۱. مقایسه با مدلهای مولد (مثل GPT یا diffusion): مدلهای مولد اساساً دنبالهروی دادههای یادگیری هستند؛ یعنی یاد میگیرند بعد از یک ورودی مشخص، چه خروجیای در دادههای واقعی میآید و همان را تولید میکنند. مثلاً GPT را در نظر بگیرید: این مدل با دیدن یک کلمه، کلمهٔ بعدی را حدس میزند و عین همان را تولید میکند. یا مدلهای diffusion که یاد گرفتهاند از نویز، تصویری تولید کنند که در جزئیات شبیه تصاویر دنیای واقعی باشد. این مدلها ناچارند همهٔ جزئیات را پیشبینی کنند – حتی جزئیاتی که شاید تصادفی یا غیرقابلپیشبینی باشند. یان لکون میگوید روشهای مولد در حوزهٔ متن خوب کار میکنند، اما برای دنیای واقعی (تصویر، ویدئو، روباتیک…) مناسب نیستند چون دنیای واقعی پر از جزئیات ریز و نویز است. مدل مولد اگر بخواهد تکتک پیکسلهای بعدی یک ویدئو را پیشبینی کند، باید حتی حرکت تصادفی برگهای درخت در باد یا شکل دقیق موجهای آب را هم حدس بزند – کاری که عملاً غیرممکن است یا نیاز به داده و محاسبات غولآسا دارد. نتیجه اینکه مدلهای مولد اغلب ظرفیتشان صرف چیزهای بیربط میشود و ممکن است اشتباهاتی کنند که یک انسان هرگز مرتکب نمیشود، چون انسانها به جای جزئیات کماهمیت، روی مفاهیم کلی تمرکز میکنند.
در مقابل، JEPA عمداً مولد نیست. این معماری قرار نیست کل خروجی (مثلاً تصویر یا متن کامل) را تولید کند، بلکه همانطور که گفتیم هدفش پیشبینی یک بازنمایی معنایی است. به قول محققان متا، JEPA فقط اطلاعات لازم و قابلپیشبینی را در آن بازنمایی نگه میدارد و باقی را کنار میگذارد. این رویکرد دو مزیت بزرگ دارد: اول اینکه مدل به جای تلفکردن نیرویش روی حدس زدن هر پیکسل، روی اطلاعات سطح بالا و مفهومی تمرکز میکند (مثلاً حرکت کلی اجسام، روابط علت و معلولی). دوم اینکه از نظر محاسباتی بهصرفهتر و کارآمدتر است. گزارش شده که مدلهای JEPA در عمل ۱٫۵ تا ۶ برابر کارآمدتر از مدلهای مولد مشابه هستند، چون با حذف جزئیات غیرقابل پیشبینی، هم آموزش سریعتر میشود و هم دادهٔ کمتری برای رسیدن به همان دقت نیاز است. به عنوان نمونه، نسخهٔ ویدئویی JEPA (مدل V-JEPA) توانسته با استفاده از همین ترفند (پیشبینی در فضای معنایی بهجای فضای پیکسل)، با تعداد ویدئوی آموزشی کمتر به همان دقت یا بهتر از روشهای مولد مبتنی بر پیشبینی پیکسل دست یابد.
به زبان ساده، تفاوت دیدگاه JEPA و مدل مولد مثل فرق بین پیشبینی مفهوم کلی و تولید جزئیات دقیق است. مدلهای مولد مثل نویسندهای هستند که میخواهد ادامهٔ داستان را کلمه به کلمه عیناً بنویسد؛ اما JEPA مثل کسی است که تلاش میکند بفهمد ادامهٔ داستان چه اتفاقی میافتد بدون آنکه لزوماً دیالوگ یا توصیف صحنه را کلمه به کلمه بداند. این یعنی JEPA بیشتر به فهمیدن گرایش دارد تا صرفاً تولید کردن.
۲. مقایسه با اتواینکودرها: اتواینکودر (Autoencoder) یک نوع مدل خودنظارتی قدیمیتر است که کارش فشردهسازی و بازسازی دادههاست. شما یک ورودی (مثلاً یک تصویر) را به اتواینکودر میدهید؛ بخش encoder آن را به یک بردار کوچکتر (کد) تبدیل میکند و بخش decoder تلاش میکند از روی آن کد، دوباره تصویر اصلی را بسازد. اگرچه ایدهٔ اتواینکودر شبیه JEPA است از این جهت که هر دو بازنمایی معنایی را یاد میگیرند، اما تفاوت مهم در هدف آموزش آنهاست. اتواینکودر مجبور است تصویر اصلی را کاملاً بازسازی کند؛ یعنی کد باید حاوی تمام جزئیات حتی نویز و آشوب هم باشد تا decoder بتواند هر پیکسل را دربیاورد. در واقع در اتواینکودر اگر مدل نتواند مثلاً تکتک لکههای روی پوست پلنگ را بازسازی کند، جریمه میشود. این باعث میشود که کد یادگرفتهشده گاهی شامل ویژگیهای کمارزش یا تصادفی هم باشد.
در مقابل، JEPA میگوید “لازم نیست هرآنچه در ورودی بود در بازنمایی حفظ کنم؛ فقط آنچه را نگه میدارم که به دردم برای پیشبینی بخش دیگر بخورد.” بنابراین تابع هزینه (loss) در JEPA به جای فضای ورودی (پیکسلها) در فضای معنایی تعریف میشود. اگر بخشی از ورودی قابل پیشبینی نیست (مثل نویز)، نبودش در بازنمایی جریمهای ندارد. این تفاوت ظریف اما اساسی باعث میشود بازنمایی JEPA تمرکز بیشتری روی ویژگیهای با معنای تصویر داشته باشد تا جزئیات سطح پیکسل. به بیان دیگر، یک اتواینکودر ممکن است برای تصویر یک سیب قرمز، کدی تولید کند که شامل میزان درخشندگی هر نقطه از سیب باشد؛ ولی JEPA احتمالاً کدی میسازد که میگوید “یک میوهٔ گرد قرمز در وسط تصویر هست” و کاری به بافت دقیق پوست سیب ندارد چون برای پیشبینی باقی صحنه بیفایده است.
نکتهٔ فنی دیگری هم هست: اتواینکودرها معمولا تکورودی هستند (خود ورودی را بازسازی میکنند)، ولی JEPA دوبخشی است – یعنی یک ورودی زمینه و یک ورودی هدف دارد. این ساختار دومرحلهای (encoding دو بخش و سپس مقایسهٔ بازنماییها) از لحاظ جلوگیری از یادگیری بیهوده خیلی کمک میکند. اگر یک اتواینکودر همهچیز را به صفر تبدیل کند، یک راهحل کمهزینه برای loss است (اصطلاحاً تصاویر سیاه را بازسازی کند، البته اگر طوری طراحی شود)؛ اما JEPA اگر تلاش کند تمام بردارها را ثابت کند، پیشبینیکننده دیگر نمیتواند بین دو بخش ارتباط برقرار کند و خطای پیشبینی کم نخواهد شد. بنابراین JEPA ذاتاً نیاز دارد اطلاعات مفید را واقعاً استخراج کند و نمیتواند کاملاً میانبر بزند. (البته در عمل برای اطمینان، ترفندهایی مثل بهکارگیری آپدیت نمایی وزنها در encoder هدف یا عدم اشتراک وزن بین encoderها استفاده میشود تا از فروپاشی بازنمایی جلوگیری شود، که جزئیاتش از حوصله این بحث خارج است.)
۳. مقایسه با روشهای یادگیری متضاد (Contrastive): در سالهای اخیر روشهای خودنظارتی متعددی مثل SimCLR، MoCo، BYOL و غیره مطرح شدند که مبتنی بر ایدهٔ یادگیری متضاد هستند. ایدهٔ کلی این روشها این است که مدل با گرفتن دو نسخهی تغییرشکلیافته از یک تصویر (مثلاً یک عکس را دوبار با برش یا رنگهای متفاوت میبیند)، یاد میگیرد بازنماییهای یکسانی برای آنها تولید کند؛ در حالی که برای تصاویر متفاوت بازنماییهای دور از هم بسازد. به عبارت دیگر، مدل هرچه اختلاف مربوط به تغییرات ظاهری (چرخش، نور، نویز) است را در بازنمایی نادیده میگیرد و فقط ماهیت شیء یا صحنه را حفظ میکند. این تکنیک به موفقیتهای چشمگیری در یادگیری ویژگیهای تصویری انجامیده است. اما مشکلات خودش را هم دارد؛ از جمله اینکه نیازمند طراحی هوشمندانهٔ “تغییرات خوب” و حتی استفاده از نمونههای منفی است تا مدل دچار راهحلهای بد (مثل همهچیز را یک بردار ثابت کردن) نشود. مثلا اگر خیلی تغییرات شدید نباشد، مدل ممکن است یاد بگیرد هر تصویری هرطور بود همان را بدهد (فروپاشی)؛ یا اگر تغییرات خیلی سخت باشند، مدل ممکن است در واقع ویژگیهای معنایی را هم از دست بدهد. علاوه بر این، در روشهای متضاد معمولاً تنظیمات بسیاری (از نوع افزودهسازی داده تا دمای softmax برای کنتراست) دخیلاند که فرآیند آموزش را پیچیده میکند.
در مقابل، JEPA یک راه میانه و هوشمندانه بین یادگیری مولد و متضاد ارائه میدهد. بجای اینکه صریحاً به مدل بگوییم “این دو نمای ورودی را یکسان کن و آن دو تای دیگر را متفاوت”، ما به مدل میگوییم “از روی یکی، دیگری را پیشبینی کن”. اینگونه مدل خودبهخود یاد میگیرد برای موفق شدن در این پیشبینی، باید ویژگیهای پایدار و با معنی را در بازنماییها نگه دارد و نسبت به تفاوتهای نامربوط حساس نباشد. نکته اینجاست که JEPA نیازی به نمونهٔ منفی یا کنتراست مستقیم ندارد؛ چون هدف پیشبینی کردن ذاتاً مدل را مجبور میکند بازنمایی مفید یاد بگیرد. همچنین جالب است بدانید I-JEPA (نسخه تصویری JEPA) توانسته به کیفیتی همسطح روشهای متضاد دست یابد بدون نیاز به اعمال انبوهی از تغییر شکلهای تصادفی روی تصاویر. در واقع در I-JEPA تنها تغییر داده اعمالشده ماسک کردن چند تکه از تصویر است، و با همین روش ساده، مدل ویژگیهای معنایی عمیقی یاد گرفته که مثلاً برای دستهبندی یا تشخیص شیء بسیار خوب عمل میکنند. این دستاورد اهمیت دارد چون نشان میدهد شاید بسیاری از پیچیدگیهای روشهای متضاد ضروری نباشند و بتوان با رویکرد پیشبینانهی JEPA به سادهسازی رسید.
خلاصه اینکه: روشهای متضاد بر «یکی کردن دو چیز یکسان و دور کردن چیزهای متفاوت» تکیه دارند، ولی JEPA بر «پیشبینی کردن از روی اطلاعات ناقص» متکی است. هر دو رویکرد سعی میکنند مدل را وادار به یادگیری بازنمایی مفید کنند، اما JEPA این کار را با هدفمندی متفاوتی انجام میدهد که از سختگیری کمتر ولی هدفدار بودن بیشتر برخوردار است.
چرا یان لکون و متا از JEPA استفاده میکنند؟ چه مزایایی دارد؟
حال ممکن است بپرسید با وجود این همه مدل موفق (از GPT گرفته تا Vision Transformerهای مختلف)، چه دلیلی دارد متا سراغ معماری تازهای مثل JEPA برود؟ پاسخ را باید در دیدگاه بلندمدتتر و نقاط ضعف مدلهای فعلی جستوجو کنیم. یان لکون معتقد است مدلهای کنونی (بهخصوص مدلهای مولد بزرگ) علیرغم تواناییهای چشمگیرشان، هنوز از برخی جهات «خنگ» هستند! او در یک همایش علمی صراحتاً گفت: *«الآن یادگیری ماشین یکجورهایی به درد نخور شده؛ برای داشتن سیستمهای هوشمندتر، ماشینها باید بفهمند دنیا چگونه کار میکند و بتوانند به خاطر بسپارند، استدلال کنند و برنامهریزی کنند»*. از نظر او، مدلهای مولد مثل ChatGPT شاید در تولید متن خوب باشند اما درک واقعی از جهان ندارند. آنها یکجور طوطیوار الگوهای آماری را بازتولید میکنند، در حالی که برای دست یافتن به هوش انسانی، باید مدلی داشت که مثل نوزاد انسان از تجربهٔ جهان، قوانین و مفاهیم بنیادی را درونیسازی کند.
JEPA دقیقاً برای همین منظور طراحی شده است. لکون میگوید: *«آیندهٔ هوش مصنوعی غیرمولد است. [مدل مولد] برای متن جواب میدهد، اما برای چیز دیگری کارا نیست»*. به جای اینکه سعی کنیم یک مدل همهفنحریف داشته باشیم که تکتک پیکسلها یا کلمات بعدی را درست حدس بزند، بهتر است سیستمی داشته باشیم که یک شبیهساز درونی از دنیا داشته باشد؛ یعنی بتواند صرفاً با دیدن، تصور کند بعدش چه میشود. JEPA در واقع پیادهسازی همین ایده است: «پیشبینی کردن اطلاعات گمشده به شکل معنایی و درونی». لکون این معماری را به عنوان جزء کلیدی مسیری که او «هوش ماشینی پیشرفته (Advanced Machine Intelligence)» مینامد معرفی کرده است. او حتی پیشبینی کرده که طی چند سال آینده، مدلهای مبتنی بر JEPA جایگزین رویکرد فعلی LLMها خواهند شد یا دستکم ترکیب خواهند شد تا به سیستمهای هوشمندتر بیانجامند.
از شعار که بگذریم، مزایای عملی JEPA هم قابل توجهاند:
- تمرکز بر مفاهیم به جای جزئیات: همانطور که اشاره شد، JEPA مانند مغز انسان عمل میکند که جزئیات پرنویز را فیلتر کرده و به ساختارهای کلی توجه میکند. یک مدل مولد اگر بخواهد فیلم آینده را پیشبینی کند مجبور است مثلاً حرکت تکتک برگها را مدل کند، ولی JEPA میگوید “فکر کردن به تکان خوردن برگها اتلاف وقت است، فقط باید بدانم شاخهٔ درخت کدام سمت خم میشود.” این رویکرد باعث میشود مدل معقولتر و پایدارتر باشد. در واقع JEPA میتواند «از خیر جزئیات غیرقابل پیشبینی بگذرد» و ظرفیت خود را صرف یادگیری روابط و قواعد پایدار جهان کند. به عنوان مثال، در یک ویدئو از پرتاب توپ به دیوار، یک مدل JEPA یاد میگیرد قانون کلی فیزیک (برخورد توپ و بازگشت آن) را بفهمد، بدون آنکه درگیر پیشبینی دقیق بافت سطح توپ یا سایهٔ لحظهای آن روی دیوار شود.
- کارایی داده و محاسبات: پژوهشهای متا نشان دادهاند که JEPA در یادگیری بازنماییها بسیار مقرونبهصرفهتر از روشهای قبلی است. در یک آزمایش، مدل I-JEPA با ۶۳۲ میلیون پارامتر (اندازهای بزرگ ولی نه غولآسا) تنها طی ۷۲ ساعت روی ۱۶ کارت گرافیک A100 آموزش دید و نتیجهای عالی به دست آورد. این مدل توانست در مسئلهٔ دستهبندی تصاویر ImageNet با فقط ۱۲ نمونه برچسبخورده برای هر کلاس به دقتی بهتر از روشهای قبلی برسد. جالب اینکه سایر روشها برای رسیدن به این دقت به ۲ تا ۱۰ برابر زمان محاسباتی بیشتر نیاز داشتند و باز هم خطای بیشتری داشتند. این نشان میدهد JEPA هم از نظر استفاده از دادهٔ بدون برچسب و هم در به حداقل رساندن نیاز به دادهٔ برچسبدار، برتری دارد. به زبان ساده، با JEPA میتوان مدلهایی ساخت که کمتر یاد میگیرند ولی بهتر میفهمند! (کمیت داده را با کیفیت یادگیری جبران میکنند).
- توانایی تعمیم و استفادهٔ چندمنظوره: یکی از آرزوهای ما داشتن مدلهایی است که «یک بار آموزش ببینند و برای کارهای مختلف به کار آیند». مدلهای JEPA دقیقاً در این مسیر حرکت میکنند. بازنماییهای معنایی یادگرفتهشده توسط JEPA آنقدر غنی و مفهومی هستند که با یک لایهی نازک بالای آن میتوان کارهای گوناگون انجام داد (اصطلاحاً ارزیابی به صورت frozen یعنی بدون نیاز به تغییر خود مدل اصلی). مثلاً شما یک مدل V-JEPA آموزشدیده روی ویدئو دارید؛ بدون آنکه weights اصلیاش را دست بزنید، میتوانید فقط با یادگیری یک لایهٔ خطی روی خروجی encoder، آن را به یک دستهبند فعالیتهای ورزشی، یک سیستم تشخیص اشیاء متحرک، یا یک تخمینزن حرکت آینده تبدیل کنید. این در حالی است که بسیاری از مدلهای گذشته (چه مولد، چه متضاد) نیاز داشتند برای هر وظیفه کاملاً ریزتنظیم (fine-tune) شوند. JEPA نشان داده که میشود یک مدل مشترک برای چندین کاربرد داشت و تنها قسمتهای کوچکی را متناسب با هر کاربرد آموزش داد. این ویژگی برای صنعت جذاب است چون یعنی هزینهٔ بهکارگیری مدل در مسائل جدید پایین میآید.
- امکان یادگیری ساختار علت و معلولی و مدل جهان: مزیت بلندپروازانهتر JEPA این است که راه را به سوی مدلی باز میکند که واقعاً دنیا را مدل کند. پیشبینی در فضای معنایی شباهت زیادی به نحوهٔ عملکرد مغز ما دارد. تئوریهای علوم شناختی میگویند که مغز انسان مرتباً در حال پیشبینی حسیات آینده است و وقتی پیشبینی درست از آب درنیاید دچار «سورپرایز» شده و یاد میگیرد. JEPA نیز با پیشبینی مداوم، در واقع یک مدل درونی از دینامیک دنیا میسازد که میتواند پایهٔ استدلال علی (علت و معلولی) باشد. این یک تفاوت اساسی با مدلهای صرفاً مولد مثل GPT است که هیچ درکی از علت و معلول در جهان فیزیکی ندارند. برای مثال، GPT اگر جملهٔ «من لیوان را هل دادم و …» را بخواند ممکن است «لیوان شکست» را ادامه دهد صرفاً چون در دادهها اینگونه بوده؛ اما JEPA (در قالب یک مدل ویدئویی) اگر ببیند صحنهٔ هل دادن لیوان را، بر اساس مدل جهان خود پیشبینی میکند لیوان میافتد و میشکند، آن هم نه به خاطر بسامد داده بلکه به خاطر فهم ضمنی قوانین فیزیکی. در بخشی بعد خواهیم دید که این حرف در عمل هم تأیید شده و JEPA درک نوعی «فیزیک شهودی» را یاد گرفته است.
در مجموع، متا و بهخصوص یان لکون به JEPA به چشم گام اول به سوی نسل جدیدی از هوش مصنوعی نگاه میکنند که بتواند واقعاً مثل موجودات زنده از جهان بیاموزد. لکون صراحتاً اعلام کرده که آنها قصد دارند این معماری را توسعه دهند و به تصاویر بزرگ، ویدئوها و حتی عوامل هوشمند تعمیم دهند. او باور دارد تنها با چنین رویکردی میتوان به ماشینهایی رسید که روزی توانایی یادگیری و استدلال در حد انسان را پیدا کنند، چیزی که با صرف بزرگکردن مدلهای زبان به دست نخواهد آمد.
دستاوردها و نتایج JEPA تا به امروز
معماری JEPA هنوز جدید است (از پیشنهاد اولیه آن در سال ۲۰۲۲ زمان زیادی نمیگذرد) اما در همین مدت کوتاه مدلها و نتایج جالبی بر اساس آن عرضه شده است. در این قسمت مروری میکنیم بر مهمترین پیشرفتهایی که با JEPA حاصل شده و پروژههایی که از آن بهره بردهاند:
- I-JEPA (مدل تصویری JEPA): اولین پیادهسازی موفق JEPA توسط تیم متا در ژوئن ۲۰۲۳ ارائه شد. I-JEPA روی مجموعه تصاویر بزرگ (مثل ImageNet) به صورت خودنظارتی آموزش دید و هدفش یادگیری بازنمایی تصاویر بود. همانطور که قبلاً گفتیم، این مدل بخشهایی از تصویر را ماسک میکرد و تلاش میکرد بازنمایی بخشهای مخفی را از بخشهای معلوم پیشبینی کند. نتیجه چشمگیر بود: I-JEPA توانست بدون استفاده از برچسب، ویژگیهایی بیاموزد که در ارزیابیهای متعدد، بهتر از روشهای رایج عمل کردند. مثلاً در آزمون دستهبندی با تعداد بسیار کم برچسب، I-JEPA رکورد جدیدی ثبت کرد و نشان داد بازنمایی آموختهشدهٔ آن واقعاً معنیدار و قابل استفاده است. نکتهٔ جالب اینجاست که I-JEPA برخلاف بسیاری از مدلهای قبلی (مانند DINOv2 یا MAE) به تنظیمات پیچیده نیازی نداشت – نه احتیاج به انواع افزایشدادهٔ عجیب و غریب (crop تصادفی، تغییر رنگ شدید و …)، نه احتیاج به نمونهٔ منفی و کنتراست. همین که بخشهایی از تصویر را مخفی کنیم کافیست تا مدل یاد بگیرد اشیا و بافتها را بفهمد. متا گزارش کرده که I-JEPA از لحاظ مقیاسپذیری هم بسیار خوب عمل میکند و با بزرگتر کردن مدل، عملکرد همچنان بهتر شده است. همچنین طبق گفتهی لکون، I-JEPA هنوز روی دیتاستهای عظیمتر امتحان نشده و او انتظار دارد اگر با دادههای بیشتری تغذیه شود حتی از مدلهای برتر خودمتای دیگر مثل DINOv2 هم پیشی بگیرد.
- MC-JEPA (مدل حرکت-محتوا): مدت کوتاهی پس از I-JEPA، پژوهشگران متا مدل دیگری به نام MC-JEPA معرفی کردند. هدف MC-JEPA ترکیب اطلاعات ایستا و پویا در ویدئوها بود. به عبارت دیگر، این مدل میخواست همزمان یاد بگیرد چه چیزی در صحنه است (محتوا) و چگونه حرکت میکند (دینامیک). به این منظور، یک ساختار دوگانه طراحی شد که یک encoder مشترک دارد اما دو شاخهٔ پیشبینیکننده: یکی برای ویژگیهای مربوط به حرکت و یکی برای ویژگیهای مربوط به ظاهر جسم. با چنین مدلی میتوانید تصور کنید که سیستم مثلاً در ویدئویی از یک خیابان، هم یاد میگیرد اتومبیل و عابر پیاده چیست (محتوا) و هم جهت و سرعت حرکتشان را درک کند (حرکت). MC-JEPA گامی به سوی مدلهای چندوظیفهای خودنظارتی بود و اهمیتش در دنیای واقعی این است که مثلا در رانندگی خودکار یا نظارت ویدیویی، مدل بتواند به طور خودکار هم اشیاء را بشناسد و هم اعمال/حرکات را تفسیر کند. هرچند MC-JEPA به اندازهی I-JEPA سر و صدا به پا نکرد، اما نشان داد که JEPA میتواند انعطاف یافته و برای اهداف متنوعتری هم به کار رود.
- V-JEPA (مدل ویدئویی JEPA): جدیدترین و شاید هیجانانگیزترین عضو خانوادهٔ JEPA، مدل V-JEPA است که متا در اواخر ۲۰۲۳ و اوایل ۲۰۲۴ معرفی کرد. حرف V ابتدای Video است، یعنی این مدل مخصوص یادگیری از ویدئوهای خام طراحی شده. V-JEPA یک پله بلندتر در جهت دیدگاه “مدل جهان” لکون بود، زیرا به مدل امکان میدهد از توالی تصاویر (زمان) دانش کسب کند. روش کار V-JEPA نیز مشابه نسخه تصویری است: تکههایی از یک کلیپ ویدئویی ماسک میشوند (مثلاً بخشهایی از چند فریم پشت سر هم حذف میشود) و مدل باید از روی بقیه قسمتها، بازنمایی بخشهای حذفشده را پیشبینی کند. تفاوت اصلی در اینجاست که حالا بُعد زمانی هم اضافه شده و مدل باید یاد بگیرد مثلاً شیء X که در زمان t در مکان A بود، در زمان t+1 به کجا میرود. V-JEPA در حقیقت تلاش میکند همان قابلیتی را تقلید کند که ما انسانها داریم: دیدن یک ویدئو و پیشبینی اتفاق بعدی. مثلا اگر توپی را ببینیم که به سمت دیوار میرود، انتظار داریم برگردد و اگر برنگردد متعجب میشویم.نتایج V-JEPA چشمگیر بوده است. این مدل را با حدود ۲ میلیون ویدئوی آموزشی بزرگ (از منابع متنوع) آموزش دادند و سپس روی انواع وظایف ویدئویی و تصویری ارزیابی کردند. در ارزیابیها، V-JEPA توانست در بسیاری از کارها عملکرد بهتری نسبت به مدلهای ویدئویی مبتنی بر پیکسل داشته باشد. مثلا در تشخیص حرکات اکشن در ویدئو یا درک تعامل اشیاء، V-JEPA هم در حالت freeze (یخزده، بدون تغییر وزنها) و هم با کمی fine-tune، از مدلهای معروفی مثل VideoMAE و OmniMAE پیشی گرفت. این یعنی بازنماییهای آنقدر خوب هستند که حتی بدون تنظیم خاص هم قابل استفادهاند. از نظر کارایی هم، جالب است بدانید V-JEPA برای رسیدن به این دقت نیاز به دادهٔ آموزشی کمتری داشت. در یک آزمایش حتی نشان داده شد یک نسخه کوچکتر V-JEPA با فقط ۱۲۸ ساعت ویدئو آموزش (تقریباً پنج روز ویدئو)، مفاهیم بنیادی فیزیک را یاد گرفته که مدلهای بسیار بزرگ زبانی-تصویری فاقد آن بودند!یکی از دستاوردهای شگفتانگیز V-JEPA همین بود: یادگیری فیزیک شهودی از ویدئوها. در اوایل ۲۰۲۵ پژوهشی منتشر شد که طی آن مدل V-JEPA را آزمودند تا ببینند آیا میتواند مثل یک کودک نوپا، قواعد اولیه فیزیک (مثل پایداری اجسام، جاذبه، برخوردها) را درک کند. آنها از روشی به نام “آزمون نقض انتظار” (Violation of Expectation) بهره گرفتند که در علم شناختی برای سنجش درک نوزادان استفاده میشود. به مدل دو ویدئوی کوتاه نشان میدادند که یکی مطابق قوانین فیزیک بود و دیگری عمداً یک قانون را نقض میکرد (مثلاً توپی که به دیوار میخورد و ناپدید میشود!). مشاهده شد که V-JEPA به ویدئوهای غیرممکن واکنش متفاوتی نشان میدهد؛ یعنی عملاً فهمیده «این نباید اتفاق بیافتد». در شاخصهایی مثل ماندگاری شیء (object permanence)، تداوم حرکت و یکپارچگی شکل، این مدل امتیاز بالایی کسب کرد، در حالی که جالب است بدانید مدلهای بزرگ زبانی-تصویری نظیر Gemini و Qwen-VL در همین آزمونها تقریباً تصادفی عمل کردند و چیزی بیش از حدس کور نبودند. اهمیت این نتیجه در این است که برای اولین بار نشان داده شد یک AI میتواند بدون قوانین صریح برنامهریزیشده، از طریق تماشای ویدئو به فهمی شبیه قوانین فیزیکی برسد. این همان چیزی است که سالها به عنوان یکی از نقاط ضعف هوش مصنوعی مطرح میشد (اینکه ماشینها انتزاع ندارند). اکنون با روش JEPA کورسوی امیدی پدیدار شده که با یادگیری خودنظارتی میتوان چنین انتزاعی را کسب کرد.
- سایر پروژهها و گسترشها: به جز سه پروژه اصلی بالا، ایدهٔ JEPA الهامبخش پژوهشهای دیگری هم بوده است. برای نمونه، محققانی JEPA را برای دادههای سهبعدی بهکار بردهاند (مثل مدلی به نام Point-JEPA برای محیطهای سهبعدی)، یا در حوزههای خاص مثل آنالیز حرکت اسکلت (مدل S-JEPA برای دادههای اسکلتی) و حتی ترکیب با روشهای متضاد (مدل C-JEPA که در آن JEPA با کنتراست تلفیق شده). اینها نشان میدهد که جامعهٔ پژوهشی به JEPA علاقه نشان داده و در تلاش است قابلیتهای آن را به دامنههای گوناگون گسترش دهد. از سوی دیگر، متنباز شدن کدهای JEPA (از جمله I-JEPA و مدل فیزیک شهودی) در گیتهاب نیز به توسعهدهندگان مستقل فرصت داده تا این مدلها را تست کنند یا در پروژههای خودشان به کار گیرند. بنابراین JEPA در همین مدت کوتاه از یک ایده روی کاغذ تبدیل به یک خانوادهٔ مدل با دستاوردهای ملموس شده است.
وضعیت فعلی و آیندهٔ JEPA در صنعت و پژوهش
در حال حاضر JEPA بیشتر در مرحلهٔ پژوهش و توسعه است. شرکت متا به عنوان پیشتاز این رویکرد، طی سالهای ۲۰۲۳ و ۲۰۲۴ چندین مدل JEPA (برای تصاویر و ویدئوها) را عرضه کرده و نتایج امیدوارکنندهای به دست آورده است. این مدلها فعلاً در حد پلتفرمهای تحقیقاتی و آزمایشی هستند و هنوز به صورت محصول نهایی در جایی مثل اینستاگرام یا فیسبوک به کار نرفتهاند (تا جایی که من میدونم!). با این حال، جهتگیری متا و اظهارات صریح یان لکون نشان میدهد که برنامههای بزرگی برای JEPA در سر دارند. لکون تأکید کرده که تیمهای متا در حال گسترش این ایده به ویدئوهای پیچیدهتر و شاید ورودیهای چندحسی هستند. هدف نهایی، ساخت سیستمهایی است که بتوانند مثل یک عامل مستقل در محیط حرکت کنند، ببینند، پیشبینی کنند و تصمیم بگیرند. در این چشمانداز، JEPA نقش “مدل جهان” را بازی میکند: یعنی مغز سامانه که با دیدن مداوم، قوانین دنیا را یاد گرفته و میتواند سناریوهای “چه میشود اگر…؟” را در ذهن خود شبیهسازی کند.
از منظر صنعتی، میتوان آیندههای جالبی را متصور شد. برای مثال:
- در خودروهای خودران، یک شبکهٔ JEPA میتواند با تماشای میلیونها ساعت رانندگی، یاد بگیرد که اگر یک عابر ناگهان به خیابان بدود چه اتفاقی میافتد و بهترین واکنش چیست. این نوع پیشبینی درونی میتواند توانایی برنامهریزی و واکنش آنی خودرو را بهبود بخشد.
- در رباتهای خانگی یا صنعتی، JEPA میتواند نقش مغزی را داشته باشد که با دیدن اعمال خود ربات و نتایج آنها، کمکم میفهمد که “اگر این شیء سنگین را هل بدهم ممکن است بیافتد و بشکند” یا “برای برداشتن لیوان باید با فلان زاویه نزدیک شوم وگرنه لیز میخورد”. چنین رباتی نیاز ندارد هر قانون را انسان برایش برنامهنویسی کند؛ خودش مثل یک کودک با آزمون و خطا دنیا را میآموزد.
- در حوزهٔ واقعیت مجازی (VR) و هوش مصنوعی تعاملی، JEPA میتواند درک عمیقتری از محیط مجازی به دست دهد. مثلاً یک AI در دنیای متاورس میتواند مسیر وقایع را پیشبینی کند و واکنشهای منطقیتر و واقعگرایانهتری نشان دهد (فرض کنید یک NPC بازی که میداند اگر پل تخریب شود، باید راه دیگری برای رسیدن به شما پیدا کند).
- در سیستمهای چندرسانهای، ترکیب JEPA با مدلهای زبانی میتواند به دستیارهایی منجر شود که علاوه بر درک زبان، فهم تصویری و ویدئویی هم دارند. چنین دستیاری اگر از دوربین گوشی شما جهان را ببیند، شاید بفهمد که مثلا “فنجان روی میز لبهٔ خطرناکی قرار گرفته و ممکن است بیافتد” و به شما هشدار دهد – چیزی که یک مدل زبان صرف از پس آن برنمیآید.
از منظر پژوهشی، چالشهای جالبی پیش روی JEPA است. یکی تعیین سطح بهینه سازی است – یعنی چقدر باید جزئیات را دور ریخت و چقدر را نگه داشت که هم پیشبینی ممکن باشد هم اطلاعات کافی باقی بماند. دیگر چالش، مقیاسدهی است: آموزش مدلهای JEPA بسیار بزرگ (مثلاً معادل ۱۰ میلیارد پارامتر) و روی دادههای عظیم چندحسی، نیازمند پیشرفت در الگوریتمها و سختافزار است. همچنین ترکیب JEPA با حافظهٔ بلندمدت و ماژولهای تصمیمگیری (نظیر چیزی که لکون Configurator و Actor مینامد) میدان پژوهشی داغی خواهد بود؛ چون در نهایت برای داشتن یک عامل هوشمند کامل نیاز است که پیشبینی (JEPA)، حافظه و اقدام در یک چارچوب هماهنگ شوند.
با همهٔ این اوصاف، میتوان گفت JEPA نمایندهٔ یک تغییر پارادایم مهم در هوش مصنوعی است. اگر رویکرد فعلی با مدلهای مولد غولپیکر را موج دوم یادگیری عمیق بدانیم، JEPA احتمالاً نویدبخش موج سومی است که در آن به جای بلعیدن دادهٔ بیشتر، مدلها هوشمندانهتر یاد میگیرند. حتی در میان عموم نیز این بحث فراگیر شده که مدلهای زبانی بزرگ ممکن است به بنبست نزدیک شوند و چیزی فراتر نیاز داریم. JEPA یکی از جدیترین نامزدهای این “چیز فراتر” است.
JEPA ما را یک قدم به ساخت ماشینهایی نزدیکتر کرده که میتوانند «ببینند، بفهمند و آینده را تصور کنند» – ویژگیهایی که شالودهٔ هوش انسانیاند. اگرچه راه زیادی تا تحقق رؤیای یک هوش مصنوعی در سطح انسان باقی است و خود لکون هم میگوید این هدف دهها سال زمان میخواهد، اما حرکت در مسیر JEPA چشمانداز هیجانانگیزی را ترسیم کرده است. باید دید در سالهای آتی این معماری چگونه تکامل مییابد و آیا میتواند وعدههای خود را عملی کند یا خیر. فعلاً که نتایج اولیه امیدبخش بودهاند و شاید چند سال دیگر، وقتی به پشت سر نگاه کنیم، JEPA را یکی از نقاط عطف مسیر هوش مصنوعی بنامیم.
اگه خیلی با موضوع حال کردید ، مقالات زیر رو بخونید ، برای اینکه JEPA رو بفهمم منابعم این ها بودند:
Yann LeCun on Joint Embedding Predictive Architectures
Meta AI Blog – I-JEPA and V-JEPA introductions
Turing Post – “What is JEPA?” Overview
Research papers on I-JEPA and V-JEPA performance
AI Base News – V-JEPA intuitive physics understanding
Encord & Medium articles – Simplified explanations of JEPA vs other methods