در حوزه یادگیری ماشین، بهویژه در مسائل طبقهبندی چندکلاسه، تابع Softmax بهعنوان یک بخش اساسی شناخته میشود. این تابع ابزاری کلیدی برای تبدیل امتیازات خام (که اغلب خروجی لایهی نهایی یک شبکهی عصبی هستند) به یک توزیع احتمالاتی است. این توزیع به ما اجازه میدهد که پیشبینیهای مدل را بهعنوان احتمالی به هر یک از کلاسهای تعریفشده تفسیر کنیم.
مبانی تئوری
در هستهی خود، تابع Softmax یک بردار از اعداد حقیقی را بهعنوان ورودی دریافت کرده و یک بردار از احتمالات را خروجی میدهد. فرض کنیم ورودی تابع یک بردار بهشکل x=[x1,x2,…,xK] باشد که در آن K تعداد کلاسها است. تابع Softmax احتمال s(xi) برای هر کلاس i را بهصورت زیر محاسبه میکند:

اجزای اصلی فرمول:
- exi: مقدار نمایی ورودی xi. این تابع اختلاف بین مقادیر ورودی را افزایش میدهد و مقادیر بزرگتر را به احتمالهای بزرگتر تبدیل میکند.
- exj∑: مجموع تمامی مقادیر نمایی شده. این مقدار نقش یک ضریب نرمالسازی را دارد و اطمینان حاصل میکند که مجموع خروجیها برابر ۱ باشد.
ویژگیها و اهمیت تابع Softmax
✅ توزیع احتمالاتی (Probability Distribution): خروجی تابع Softmax همیشه یک توزیع احتمال معتبر را نشان میدهد، بهطوریکه هر مقدار بین ۰ و ۱ است و مجموع تمامی خروجیها برابر ۱ خواهد بود.
✅ طبقهبندی چندکلاسه (Multi-class Classification): این تابع بهطور خاص برای مسائلی طراحی شده است که در آن یک ورودی میتواند به یکی از چندین کلاس متمایز تعلق داشته باشد. Softmax معمولاً در لایهی خروجی شبکههای عصبی برای وظایفی مانند تشخیص تصویر، پردازش زبان طبیعی و سایر مسائل طبقهبندی استفاده میشود.
✅ افزایش تمایز بین کلاسها (Amplification of Differences): ماهیت نمایی این تابع باعث افزایش تفاوت بین مقادیر ورودی شده و به مدل کمک میکند که تمایز واضحتری بین کلاسها قائل شود.
✅ پایداری عددی (Numerical Stability): یکی از چالشهای پیادهسازی تابع Softmax ناپایداری عددی است. زمانی که مقادیر ورودی بسیار بزرگ باشند، تابع نمایی میتواند مقادیر فوقالعاده بزرگی تولید کند که منجر به خطاهای overflow یا underflow میشود. برای حل این مشکل، از ترفند max استفاده میشود:

این تغییر مقدار خروجی را تغییر نمیدهد اما پایداری عددی را بهبود میبخشد.
✅ رابطه با رگرسیون لجستیک (Relationship to Logistic Regression): تابع Softmax را میتوان تعمیمیافتهی تابع لجستیک در نظر گرفت. رگرسیون لجستیک برای طبقهبندی باینری استفاده میشود، درحالیکه Softmax این مفهوم را به چندین کلاس گسترش میدهد.
✅ زیان آنتروپی متقاطع (Cross-Entropy Loss): تابع Softmax معمولاً با تابع آنتروپی متقاطع همراه میشود. این تابع میزان اختلاف بین توزیع احتمالاتی پیشبینیشده و توزیع واقعی را اندازهگیری میکند و به بهینهسازی مدل در طول آموزش train کمک میکند.
پیادهسازی تابع Softmax در پایتون
import numpy as np
def softmax(x):
"""
پیادهسازی تابع Softmax برای یک بردار یا ماتریس ورودی.
"""
x_shifted = x - np.max(x, axis=-1, keepdims=True) # بهبود پایداری عددی
exp_x = np.exp(x_shifted)
return exp_x / np.sum(exp_x, axis=-1, keepdims=True)
# مثال استفاده از تابع
# ورودی برداری
input_vector = np.array([2.0, 1.0, 0.1])
output_vector = softmax(input_vector)
print("خروجی Softmax:", output_vector)
print("مجموع خروجیها:", np.sum(output_vector)) # باید نزدیک به ۱ باشد
# ورودی ماتریسی (چندین بردار)
input_matrix = np.array([[3.0, 1.0, 0.2],
[0.5, 2.0, 1.5]])
output_matrix = softmax(input_matrix)
print("\nخروجی Softmax برای ماتریس:\n", output_matrix)
print("مجموع خروجیها (برای هر ردیف):", np.sum(output_matrix, axis=1)) # باید نزدیک به ۱ باشد
کاربردهای عملی تابع Softmax
📌 تشخیص تصویر (Image Recognition): در مدلهای شبکه عصبی کانولوشنی (CNN)، تابع Softmax در لایهی خروجی برای پیشبینی احتمال دستههای مختلف یک تصویر (مانند گربه، سگ، خودرو و …) استفاده میشود.
📌 پردازش زبان طبیعی (NLP):
- طبقهبندی متن (Text Classification): برای دستهبندی متن به موضوعات مختلف (مانند تحلیل احساسات یا تشخیص هرزنامه).
- مدلسازی زبان (Language Modeling): برای پیشبینی کلمهی بعدی در یک دنبالهی متنی.
- ترجمه ماشینی (Machine Translation): برای انتخاب بهترین ترجمهی ممکن برای یک عبارت.
📌 سیستمهای توصیهگر (Recommendation Systems): برای پیشبینی احتمال تعامل کاربر با آیتمهای مختلف (مانند پیشنهاد فیلم یا موسیقی).
📌 یادگیری تقویتی (Reinforcement Learning): برای انتخاب اقداماتی با بالاترین ارزش پیشبینیشده.
📌 تشخیص پزشکی (Medical Diagnosis): برای پیشبینی احتمال ابتلای بیمار به بیماریهای مختلف.
نتیجهگیری
تابع Softmax یک ابزار قدرتمند و همهکاره در یادگیری ماشین است، بهویژه در مسائل طبقهبندی چندکلاسه. توانایی آن در تبدیل امتیازات خام به احتمالات معنیدار، همراه با پایداری عددی و ارتباط آن با دیگر مفاهیم کلیدی، آن را به یک جزء ضروری در بسیاری از مدلهای یادگیری ماشین تبدیل کرده است. با درک عمیقتر این تابع و پیادهسازی آن در مسائل مختلف، میتوان از ظرفیتهای آن در حل طیف وسیعی از مشکلات دنیای واقعی بهره برد.