خوشه بندی k میانگین در پایتون (K Means Clustring)

در این قسمت تیم کدگیت را با آموزش خوشه بندی k میانگین در پایتون (K means) همراهی کنید. در ابتدای آموزش الگوریتم K means را معرفی کرده سپس به پیاده سازی این الگوریتم در زبان برنامه نویسی پایتون می‌پردازیم. پیشنهاد می‌کنیم پیش از مطالعه این جلسه، پیش‌نیازهای زیر را بررسی کنید:

k میانگین

روش خوشه بندی k-means یک روش یادگیری ماشین بدون نظارت (unsupervised) است که برای شناسایی خوشه‌ها در یک مجموعه داده استفاده می شود. به طور کلی انواع مختلفی از روشهای خوشه بندی وجود دارد ، اما k-means یکی از قدیمی ترین الگوریتم‌ها است.

این الگوریتم دیتا را به k گروه مشابه طبقه بندی می کند. برای محاسبه این شباهت، از فاصله اقلیدسی به عنوان اندازه گیری استفاده می شود. دیتایی که بر روی آن خوشه‌بندی انجام خواهیم داد Iris dataset می‌باشد(دانلود دیتاست).

k نزدیکترین همسایه در پایتون

خوشه بندی k میانگین در پایتون

همانطور که می‌دانید دیتاست IRIS از قبل در 3 گروه Iris-setosa و Iris-versicolor و Iris-virginica دسته‌بندی شده است. در زیر تصویری از دسته‌بندی واقعی این دیتاست را می‌بینیم(نمودار زیر بر اساس 3 متغیر PetalWidthCm و SepalLengthCm و PetalLengthCm می‌باشد). پس از پیاده سازی نیز دسته بندی را با کمک الگوریتم K means خواهیم دید.

خوشه بندی k میانگین در پایتون

 برای پیاده سازی k میانگین ابتدا کتابخانه‌های مورد نیاز را فراخوانی می‌کنیم:

بیشتر بخوانید:  دسته‌ بند بیز ساده در پایتون (Naïve Bayes)

در ادامه دیتاست خود را وارد برنامه می‌کنیم.

الگوریت k means بدون نظارت بوده پس تنها متغیر X را برای آن مشخص می‌کنیم:

حال به پیاده سازی خوشه بندی k میانگین در پایتون به کمک کتابخانه sklearn می‌پردازیم:

برای نمایش نقاط وسط خوشه ها از تابع cluster_centers_ استفاده می‌کنیم:

پیش‌بینی خوشه های ما به صورت زیر است. می‌توانید با نمودار بالا آن را مقایسه کنید.

خوشه بندی k میانگین در پایتون

روش elbow

یکی از مشکلات روش k میانگین، انتخاب درست عدد k است. در صورتی که تعداد k درست تعیین نگردد الگوریتم ما به درستی کار نمی‌کند. یکی از روش‌هایی که این مشکل را برطرف کرده است روش Elbow است.

انتخاب k

برای انتخاب بهترین k معمولا الگوریتم را با تعداد خوشه‌های مختلف سنجیده و میزان خطا را محاسبه می‌کنند. نمودار زیر را ببینید:

خوشه بندی k میانگین در پایتون

در نمودار بالا همانطور که می‌بینید وقتی تعداد خوشه ها از 1 به 2 می رسد خطا میزان زیادی کاهش پیدا می کند همین طور از 2 به 3 همین اتفاق می‌افتد. اما از تعداد خوشه 3 به 4 میزان خطا نسبت به مراحل قبل کاهش چشمگیری نداشته است. می توان این نتیجه را گرفت که تعداد خوشه 3 میزان مناسبی برای انتخاب k است. البته به این نکته توجه داشته باشید که هر چه تعداد k بالاتر برود میزان خطا پایین تر می‌آید و این امری بدیهی است. شکل نمودار بالا شبیه به آرنج می‌باشد و elbow نیز به معنی آرنج است.  

پسورد: www.codegate.ir

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *