درک تفاوتهای ظریف بین یادگیری نظارتشده (Supervised Learning) و یادگیری تقویتی (Reinforcement Learning) برای هر کسی که وارد دنیای یادگیری ماشین میشود، ضروری است.
اگرچه هر دو روش با هدف آموزش به ماشینها برای تصمیمگیری طراحی شدهاند، اما رویکردها و کاربردهای آنها تفاوتهای اساسی دارند.
یادگیری نظارتشده (Supervised Learning): یادگیری از دادههای برچسبدار
مفهوم اصلی:
در یادگیری نظارتشده، یک مدل با استفاده از مجموعه دادهای train میبیند که برچسبدار است. یعنی برای هر ورودی، خروجی صحیح یا «برچسب» مشخص شده است. هدف مدل این است که ارتباط بین ورودی و خروجی را بیاموزد تا بتواند برای دادههای جدید، خروجی را پیشبینی کند.
ویژگیهای کلیدی:
- دادههای برچسبدار: کاملاً به دادههایی متکی است که خروجی آنها مشخص شده.
- مبتنی بر پیشبینی: تمرکز روی پیشبینی خروجی بر اساس ورودی.
- بازخورد مستقیم: مدل از طریق مقایسه خروجی خود با برچسب واقعی، بازخورد میگیرد.
- تشبیه «ناظر»: دادههای train مانند یک ناظر عمل میکنند که مسیر یادگیری را راهنمایی میکنند.
نحوه عملکرد:
مدل مثالهایی از پاسخهای صحیح را مشاهده میکند و پارامترهای داخلی خود را طوری تنظیم میکند که بتواند این پاسخها را بهتر بازتولید کند.
مثالها:
- آموزش سگ: برای یاد دادن گرفتن توپ به سگ، دستورالعملهای مشخص میدهیم: «به چپ بچرخ، به راست برو، ۷ قدم جلو برو، توپ را بگیر.» اینها معادل دادههای برچسبدار هستند.
- بازی شطرنج: به یک برنامه شطرنج، مجموعهای از وضعیتهای صفحه و بهترین حرکت در هر وضعیت داده میشود.
کاربردهای رایج:
- دستهبندی تصاویر (مثل تشخیص گربه یا سگ)
- رگرسیون (مثلاً پیشبینی قیمت خانه)
- تشخیص اسپم در ایمیلها
یادگیری تقویتی (Reinforcement Learning): یادگیری از طریق تعامل و پاداش
مفهوم اصلی:
در یادگیری تقویتی، یک عامل (Agent) در یک محیط (Environment) عمل میکند. عامل از طریق آزمون و خطا یاد میگیرد که چه اقداماتی منجر به پاداش میشود. هدف نهایی، حداکثرسازی مجموع پاداش در طول زمان است.
ویژگیهای کلیدی:
- تعامل با محیط: یادگیری از طریق تعامل مستقیم با محیط انجام میشود.
- یادگیری مبتنی بر پاداش: بازخورد به شکل پاداش یا جریمه ارائه میشود.
- تصمیمگیری پیدرپی: تمرکز روی دنبالهای از تصمیمها برای رسیدن به یک هدف بلندمدت.
نحوه عملکرد:
مدل میآموزد که در شرایط مختلف چه اقداماتی انجام دهد تا بیشترین پاداش را بگیرد. این یادگیری با امتحان کردن گزینههای مختلف و مشاهده نتیجه آنها صورت میگیرد.
مثالها:
- آموزش سگ: به جای دستور دادن مستقیم، توپ را پرت میکنیم و هر بار که سگ توپ را میگیرد، به او بیسکویت (پاداش) میدهیم. سگ یاد میگیرد که برای گرفتن بیسکویت باید توپ را بگیرد.
- بازی شطرنج: عامل در مقابل خود یا عامل دیگر بازی میکند. برای بردن بازی یا گرفتن مهره، پاداش میگیرد و برای از دست دادن مهره، جریمه. بدون نیاز به مجموعه داده قبلی، از طریق تجربه یاد میگیرد.
- پیشنهاد فیلم: عامل از بازخورد کاربر (مثل امتیازدهی یا زمان تماشا) یاد میگیرد که چه فیلمهایی مورد علاقه کاربر است و پیشنهادات را مطابق با آن تنظیم میکند.
کاربردهای رایج:
- بازیها (مثل AlphaGo)
- رباتیک (مثل ناوبری خودران)
- مدیریت منابع
خلاصه تفاوتهای کلیدی:
ویژگی | یادگیری نظارتشده | یادگیری تقویتی |
---|---|---|
داده | نیاز به دادههای برچسبدار دارد | از طریق تعامل با محیط و سیگنال پاداش یاد میگیرد |
بازخورد | بازخورد مستقیم از درستی خروجی | بازخورد تاخیردار از طریق پاداش |
هدف | پیشبینی دقیق خروجی | حداکثرسازی پاداش کلی از طریق تصمیمگیری بهینه |
تصمیمگیری | هر پیشبینی مستقل از بقیه است | تصمیمها پیدرپی هستند و بر آینده تأثیر میگذارند |
دادههای آموزشی | به داده از پیش آماده نیاز دارد | خودش با آزمون و خطا یاد میگیرد |
در یک نگاه:
- یادگیری نظارتشده مانند یاد گرفتن از کتاب درسی با پاسخنامه است.
- یادگیری تقویتی مانند یاد گرفتن دوچرخهسواری با آزمون و خطا است.
هر دو رویکرد، ابزارهای بسیار قدرتمندی در دنیای یادگیری ماشین هستند، اما برای مسائل متفاوتی مناسباند.
نکته مهم: یادگیری تقویتی، نوعی از یادگیری بدون نظارت نیست؛ بلکه رویکردی کاملاً متفاوت و مجزا است.