- روش افرازبندی
- روش سلسلهمراتبی
- روش مبتنی بر چگالی
- روش
- روش مبتنی بر مدل
- روش های فازی
در اینجا شرح مختصری از روش های فوق را ارائه میدهیم :
1-8-1 روش افرازبندی[1]
روش های بهینهسازی خوشه ها (روش های افرازبندی)که این روشها با یک خوشهبندی اولیه که می تواند تصادفی انتخاب شده باشد شروع کرده و سعی در یافتن خوشههای بهتری هستند. این روشها اغلب خوشههایی با شکل متقارن را در فضا ایجاد می کنند معمولا نقطهای را از فضا به عنوان مرکز خوشه ها انتخاب می کنند که میتوانند از خود نقاط نقطهای درنزدیکی مرکز خوشه و یا نقطهای فضایی در میانگین نقاط در فضا K-Means باشد. سپس سعی می کنند نقاط را به خوشههای دیگر برده و یا مرکزیت خوشه را طوری تغییر دهند تا معیارها کیفیت بهینه شوند( جین و دوبس،1988) .
فرض کنید یک پایگاه داده از nشیء داشته باشیم. یک روش افرازبندی، kافراز از این داده ها درست می کند به طوریکه هر افراز یک خوشه را نشان میدهد و k<nپس داده ها در k گروه کلاسبندی میشوند که باید دارای دو شرط زیر باشند:
- هر گروه بایستی حداقل یک شیء داشته باشد.
- هر شیء باید تنها به یک گروه تعلق داشته باشد. توجه کنید که شرط دوم در تکنیکهای افرازبندی فازی می تواند قابل انعطاف باشد.
ایده اصلی این است که برای k معلوم یک روش افراز بندی ابتدایی درست می کند. سپس یک تکنیک جانشانی تکراری را بکار میبرد که تلاش برای بهبود افرازبندی دارد، به این صورت که اشیاء را از یک گروه به دیگر گروه ها میبرد. یک معیار عمومی برای یک افرازبندی خوب اینست که اشیاء در یک خوشه به هم نزدیک یا به یکدیگر وابسته باشند. بسیاری از معیارهای دیگر نیز برای بررسی کیفیت افرازها وجود دارند.
برای دستیابی به خوشهبندی بهینه مبتنی بر افراز به شمارش کامل همه افراز های ممکن نیاز خواهد بود. یعنی تمام حالات ممکن باید بررسی شوند که این روش برای پایگاه داده های بزرگ نا ممکن است لذا به جای این کار بیشترین کاربردها به یکی از دو روش معمول زیر توافق دارند:
1.الگوریتم K-Means که هر خوشه با میانگین اشیاء آن خوشه، نمایش داده می شود.
2.الگوریتم K-Medoidکه هر خوشه با یکی از اشیاء که در نزدیکی مرکز خوشه جای گرفته است نمایش داده می شود.
این روشها برای یافتن خوشههای به شکل کره در پایگاه های داده کوچک تر و متوسط به خوبی کار می کنند اما برای یافتن خوشههای با اشکال پیچیده و یا دارای مجموعه داده بسیار بزرگ باید بسط داده شوند.
1-8-1-1 روش خوشهبندي K-Means (C-Means يا C-Centeriod)
اين روش عليرغم سادگي آن يک روش پايه براي بسياري از روشهاي خوشهبندي ديگر (مانند خوشهبندي فازي) محسوب ميشود. اين روش روشي انحصاري و مسطح محسوب ميشود.[6] براي اين الگوريتم شکلهاي مختلفي بيان شده است. ولي همة آنها داراي روالي تکراري هستند که براي تعدادي ثابت از خوشهها سعي در تخمين موارد زير دارند:
- بدست آوردن نقاطي به عنوان مراکز خوشهها اين نقاط در واقع همان ميانگين نقاط متعلق به هر خوشه هستند.
- نسبت دادن هر نمونه داده به يک خوشه که آن داده کمترين فاصله تا مرکز آن خوشه را دارا باشد.
در نوع سادهاي از اين روش ابتدا به تعداد خوشههاي مورد نياز نقاطي به صورت تصادفي انتخاب ميشود. سپس در دادهها با توجه به ميزان نزديکي (شباهت) به يکي از اين خوشهها نسبت داده ميشوند و بدين ترتيب خوشههاي جديدي حاصل ميشود. با تکرار همين روال ميتوان در هر تکرار با ميانگينگيري از دادهها مراکز جديدي براي آنها محاسبه کرد و مجدادأ دادهها را به خوشههاي جديد نسبت داد. اين روند تا زماني ادامه پيدا ميکند که ديگر تغييري در دادهها حاصل نشود. تابع زير به عنوان تابع هدف مطرح است.
که ║║ معيار فاصلة بين نقاط و cj مرکز خوشة j ام است.
الگوريتم زير الگوريتم پايه براي اين روش محسوب ميشود:
- در ابتدا K نقطه به عنوان مراکز خوشهها انتخاب ميشوند.
- هر نمونه داده به خوشهاي که مرکز آن خوشه کمترين فاصله تا آن داده را داراست، نسبت داده ميشود.
- پس از تعلق تمام دادهها به يکي از خوشهها براي هر خوشه يک نقطه جديد به عنوان مرکز محاسبه ميشود. (ميانگين نقاط متعلق به هر خوشه)
- مراحل 2 و 3 تکرار ميشوند تا زماني که ديگر هيچ تغييري در مراکز خوشهها حاصل نشود.
مشکلات روش خوشهبندي K-Means
عليرغم اينکه خاتمهپذيري الگوريتم بالا تضمين شده است ولي جواب نهايي آن واحد نبوده و همواره جوابي بهينه نميباشد. به طور کلي روش ساده بالا داراي مشکلات زير است.
- جواب نهايي به انتخاب خوشههاي اوليه وابستگي دارد.
- روالي مشخص براي محاسبة اولية مراکز خوشهها وجود ندارد.
- اگر در تکراري از الگوريتم تعداد دادههاي متعلق به خوشهاي صفر شد راهي براي تغيير و بهبود ادامة روش وجود ندارد.
در اين روش فرض شده است که تعداد خوشهها از ابتدا مشخص است. اما معمولا در کاربردهاي زيادي تعداد خوشهها مشخص نميباشد.
1-8-1-2 الگوريتم خوشهبندي LBG
همانگونه که ذکر شد الگوريتم خوشهبندي K-Means به انتخاب اولية خوشهها بستگي دارد و اين باعث ميشود که نتايج خوشهبندي در تکرارهاي مختلف از الگوريتم متفاوت شود که اين در بسياري از کاربردها قابل قبول نيست. براي رفع اين مشکل الگوريتم خوشهبندي LBG پيشنهاد شد که قادر است به مقدار قابل قبولي بر اين مشکل غلبه کند.[11]
در اين روش ابتدا الگوريتم تمام دادهها را به صورت يک خوشه در نظر ميگيرد و سپس براي اين خوشه يک بردار مرکز محاسبه ميکند.(اجراي الگوريتم K-Means با تعداد خوشة 1K=). سپس اين بردار را به 2 بردار ميشکند و دادهها را با توجه به اين دو بردار خوشهبندي ميکند (اجراي الگوريتم K-Means با تعداد خوشة K=2 که مراکز اوليه خوشهها همان دو بردار هستند). در مرحلة بعد اين دو نقطه به چهار نقطه شکسته ميشوند و الگوريتم ادامه پيدا ميکند تا تعداد خوشة مورد نظر توليد شوند.