کمتر کسی هست که واژه “یادگیری ماشین چیست” به گوش خود نشنیده باشد. تعاریف زیادی برای یادگیری ماشین وجود دارد که با دیدن آن، ممکن است شما از یادگیری این تکنولوژی منصرف کند. میتوان گفت یادگیری ماشین در ابتدا یک مسئله هندسی است! یعنی ما تعدادی نقطه در نمودار داریم و میخواهیم خطی از این نقاط عبور کند که بهترین نتیجه را به ما بدهد. ایده یادگیری ماشین از اینجا شروع میشود.
تعریف یادگیری ماشین چیست
یکی از مشکلاتی که در زمینه یادگیری ماشین وجود دارد تعاریف مختلف آن است. این تعاریف به طور خلاصه میتوان گفت بسیار جذاب اما بدون معنای علمی، استفاده از واژههای تئوری بجای استفاده از کلمات ساده و … هستند. به عنوان مثال تعریفی که اکنون در ویکیپدیا میتوان دید به این صورت است:
“مطالعهٔ الگوریتمها و مدلهای آماری مورد استفادهٔ سیستمهای کامپیوتری است که بهجای استفاده از دستورالعملهای واضح، از الگوها و استنباط برای انجام وظایف استفاده میکنند. یادگیری ماشینی علمی است که باعث میشود رایانهها بدون نیاز به یک برنامه صریح در مورد یک موضوع خاص یاد بگیرند.”
با خواندن تعریف بالا متوجه خواهید شد که از واژههای جذاب اما پیچیده استفاده گردیده است. یادگیری ماشین یک مسئله هندسی است و از اینجا مسیر و سفر ما برای این تکنولوژی آغاز میگردد. اجازه دهید یکی از الگوریتمهای این شاخه یعنی رگرسیون خطی ساده را برای شما توضیح دهیم.
رگرسیون خطی ساده
فرض کنید ما اطلاعات میزان حقوق دریافتی و میزان تجربه افراد یک شهر(یا روستا) را جمع آوری کردهایم. نموداری مشابه نمودار زیر:
حال شما میخواهید مدلی پیدا کنید که رابطه تجربه و میزان حقوق دریافتی یک فرد را پیدا کنید. با دیدن نمودار بالا میتوانید حدس بزنید که میتوان یک خط رسم نمود که رابطه حقوق دریافتی و تجربه فرد را پیدا کند. اما این خط چگونه باید باشد و بهترین خط چیست؟
همانطور که گفتیم یادگیری ماشین یک مسئله هندسی است مانند مثال بالا و برای پیدا کردن رابطه بین تجربه یک فرد و حقوق دریافتی در نمودار بالا از رگرسیون خطی استفاده میکنند. برای کسب اطلاعات بیشتر در خصوص رگرسیون خطی، این الگوریتم در دوره آموزش رگرسیون خطی به صورت کامل صحبت کردهایم.
مثال پیچیدهتر
اگر بخواهیم مسئله بالا را کمی پیچیدهتر کنیم میتوان گفت بجای یک خط از یک منحنی برای ارتباط بین تجربه و میزان حقوق دریافتی استفاده کرد. همچنین می توان ابعاد مسئله را بزرگتر کرد یعنی بجای پیدا کردن بین رابطه بین دو ویژگی (تجربه و میزان حقوق)، از ویژگیهای بیشتری استفاده شود مانند تحصیلات، محل زندگی و … .
یک مثال معروف دیگری که در زمینه یادگیری ماشین میتوان زد تشخیص دیابت است. یک بیمار آزمایشهای خود را انجام و میخواهد بداند دیابت دارد یا خیر. جالب است بدانید دیتاستی در این زمینه از بانوان باردار گرفته شده و ما سورس تشخیص دیابت را در سایت قرار دادهایم. در این مثال از حدود 10 ویژگی کمک گرفته میشود. البته این نکته را بگوییم که تشخیص دیابت در دسته مسائل categorical است.
تشخیص گربه و سگ یکی دیگر از مسائلی است که در دنیای یادگیری ماشین از آن بسیار استفاده می شود. تصویری به عنوان ورودی در اختیار شما قرار میگیرد و با توجه به تصویر، شما باید سگ و گربه بودن آن را تشخیص دهید. برای حل این مسئله از شبکه عصبی پیچشی استفاده میشود. شاید برای مثالهای این قسمت نتوانیم بگوییم تنها یک مسئله هندسی هستند چراکه این مسائل پیچیدگی خاص خود را دارند اما به جرات میتوان گفت سادهتری و قابل درکترین تعریف این است “یادگیری ماشین تنها یک مسئله هندسی است”