توسط Dudoit و Fridlyand چندین روش جهت خوشهبندی دادهها ارائه شده است، یکی از این روشها BaggClust2 میباشد. این روش از ماتریس عدم تشابه[۱۰۸] که بر مبنای ماتریس تشابه بدست میآید، استفاده میکند. رابطهی (۲-۴) نحوهی محاسبهی هر عنصر این ماتریس (D) را نشان میدهد. سپس ماتریس تشابه به عنوان ورودی الگوریتم خوشهبندی، جهت ترکیب اجتماع خوشهبندیها ارسال میگردد. در [۱۷] از روش خوشهبندی PAM[109]، که توسط Kaufman و Rousseeuw در [۴۳] ارائه شده است، استفاده میگردد.
)۲-۴) |
گراف محور
Strehl و Ghosh [62] سه الگوریتم جهت ترکیب خوشهبندیها ارائه داده اند. روشهای آنها تاکنون در مقالات مختلفی مورد استناد قرار گرفته است. بسیاری از الگوریتمهای ارائه شده در زمینهی خوشهبندی توافقی در بخش ارائه نتایج، الگوریتمهای خود را با الگوریتمهای معرفی شده توسط Strehl و Ghosh مورد مقایسه قرار داده اند. اطلاعات دوجانبه نرمالسازی شده[۱۱۰] (NMI) را به عنوان معیاری جهت ارزیابی میزان توافق یا اشتراک بین دو خوشهبندی تعریف نمودند. در [۶۲] خوشهبندی توافقی بهینه به عنوان خوشهبندیای تعریف میشود که میانگین اطلاعات دوجانبه نرمال سازی شده[۱۱۱] (ANMI) بین خوشهبندی نهایی و اجتماع خوشهبندیهای اولیه بیشینه شود. لازم به ذکر است که اطلاعات دوجانبه، اطلاعات آماری مشترک بین دو توزیع را اندازه گیری میکند، از اینرو خوشهبندیها به عنوان توزیعهای احتمالی در نظر گرفته میشوند. بنابراین معیار میانگین اطلاعات دوجانبه نرمالسازی شده (ANMI)، متوسط میزان اطلاعات آماری مشترک بین خوشهبندی نهایی و اجتماع اولیه خوشهبندیها را نشان میدهد.
اجازه دهید X و Y متغیرهای تصادفیای باشند که به وسیله دو خوشهبندی πi و πj توصیف میشوند. هر یک از خوشهبندیهای πi و πj به ترتیب دارای ki و kj خوشه میباشند. I(X, Y) اطلاعات دوجانبه بین X و Y، و H(X) درگاشت شانون[۱۱۲] را برای X مشخص میکند. مقدار حاصل از تابع I(X, Y)متریک میباشد اما حد بالایی ندارد. از اینرو جهت بدست آوردن مقداری بین ۰ تا ۱، اندازهگیری NMI به صورت زیر تعریف میگردد:
(۲-۵) |
رابطهی (۲-۵) باید با بهره گرفتن از کمیتهایی که در خوشهبندی بدست آمده است، تخمین زده شود. رابطهی (۲-۶) نحوهی محاسبه معیار NMI را برای دو خوشهبندی مفروض πi و πj نشان میدهد. در رابطهی (۲-۶)، تعداد اشیاء داده در خوشهی Ch از خوشهبندی πi و تعداد اشیاء داده در خوشهی Cl از خوشهبندی πj میباشد. نیز تعداد اشیاء داده مشترک بین خوشهی Ch از πi و Cl از πj میباشد. بنابراین NMI به صورت رابطه (۲-۶) تخمین زده میشود[۶۲]:
(۲-۶) |
رابطهی (۲-۷) میانگین اطلاعات دوجانبه نرمالسازی شده (ANMI) را بین خوشهبندی نهایی *π و اجتماع خوشهبندیها П نشان میدهد. در رابطهی (۲-۷)، Mتعداد خوشهبندیهای اولیه است [۶۲]:
(۲-۷) |
جهت ترکیب خوشهبندیها و تولید خوشهبندی نهایی، چند روش گراف محور در [۶۲] معرفی شده است. طبق این روشها، نتیجهی نهایی خوشهبندیای با بیشترین ANMI میباشد. این الگوریتمها، خوشههای نتیجهی نهایی را با بهره گرفتن از بخشبندی گرافی که از روی اجتماع اولیهی خوشهبندیها بدست آمده است، تولید میکنند. جهت بخشبندی گراف نیز در [۶۲] از الگوریتمهای بخشبندی گراف Karypis و Kumar ستفاده میشود. الگوریتمهای ترکیب خوشهبندیها که در [۶۲] ارائه شدهاند، عبارتند از CSPA، HGPA و MCLA که در ادامه به بررسی آنها میپردازیم.
CSPA: این الگوریتم از گرافی متناظر با ماتریس همبستگی استفاده میکند. در این گراف هر گره[۱۱۳] نشان دهندهی یک شئ داده است و لبههای[۱۱۴] بدون جهت با بهره گرفتن از میزان شباهت بین دادهها وزندار میشوند. در این حالت جهت ایجاد خوشهبندی نهایی، الگوریتم بخشبندی گراف METIS بکار برده میشود [۳۹،۳۸] تا گراف به K خوشه تقسیم گردد.
HGPA: با بهره گرفتن از اجتماع خوشهبندیها، ={π۱, π۱, …, πM} П ، یک ابرگراف[۱۱۵] ساخته میشود، که هر گره آن متناظر با یک شئ داده است و ابرلبهها[۱۱۶] نیز خوشههای مربوط به اجتماع خوشهبندیها را نشان میدهند. تمام ابرلبهها وزن مشابهی دارند. مسئلهی خوشهبندی توافقی در این الگوریتم به عنوان یک مسئلهی بخشبندی ابرگراف در نظر گرفته میشود و هدف آن قطع تعداد کمینهای از ابرلبهها است بطوریکه K مؤلفه غیر متصل با اندازه تقریبا مشابه بدست آید. از اینرو، این روش برای دادههایی با اندازه خوشههای متوازن مناسب است. جهت بخشبندی ابرگراف در این الگوریتم از hMETIS [40] استفاده میشود.
MCLA: در این روش هر خوشه به صورت یک ابرلبه در نظر گرفته میشود. ایده بکار رفته در MCLA گروهبندی ابرلبههای مرتبط و سپس تخصیص هر یک از اشیاء داده به ابرلبههای گروهبندی شده میباشد. ابرلبههای مرتبط، بوسیله یک خوشهبندی گراف محور بر روی ابرلبهها، تشخیص داده میشوند. به هر خوشه از ابرلبهها در این روش، فوق گراف[۱۱۷] گفته میشود. لبهها با بهره گرفتن از معیار Jaccard دودویی، به عنوان نرخ اشتراک، جهت اتصال هر جفت از خوشهها، وزندار میشوند [۶۲].
علاوه بر کارآیی مناسب، عدم نیاز به تشخیص تناظر بین خوشهها در خوشهبندیهای اولیه و همچنین امکان متفاوت بودن تعداد خوشهها در خوشهبندیها از مزایای این روشها بشمار میآیند. از طرف دیگر، همانطور که گفته شده روشهای ارائه شده در [۶۲] مقدار بهینهای برای معیار ANMI مییابند، به عبارت دیگر خوشهبندیای را مییابند که بیشترین متوسط توافق را با اجتماع خوشهبندیها دارا باشد. از اینرو، در شرایطی که کیفیت خوشهبندیهای اولیه متنوع باشد و به خصوص اینکه برخی از آنها از کیفیت مطلوبی نیز برخوردار نباشند، کارایی این الگوریتمها میتواند کاهش یابد. زیرا در این حالت یافتن نتیجهای با بیشترین متوسط توافق بدین معنی است که خوشهبندیهایی با کیفیت پایینتر برابر با خوشهبندیهایی با کیفیت مناسب در تولید نتیجهی نهایی تأثیرگذار باشند. یکی دیگر از محدودیتهای این الگوریتمها این است که تعداد خوشههای مناسب باید از ابتدا برای هر یک از الگوریتمها مشخص باشد.
مرتبهی زمانی هر یک از الگوریتمهای مطرح شده در بدترین حالت عبارتند از CSPA، O(N2KM)، HGPA، O(NKM) و MCLA، O(NK2M2) که در آنها N تعداد دادهها، K تعداد خوشهها و M تعداد خوشهبندیهای اولیه است. الگوریتم HGPA از دو الگوریتم دیگر سریعتر است. الگوریتم CSPA نیز از دو الگوریتم دیگر کندتر است و میتواند برای Nهای بزرگ غیر قابل استفاده باشد. علت اصلی کندتر بودن الگوریتم CSPA ساخت گراف با بهره گرفتن از ماتریس همبستگی میباشد.
۲-۳-۶- روشهای توافقی با بهره گرفتن از اطلاعات دوجانبه
برخی از روشهای خوشهبندی [۱۲،۶۲]، خوشهبندی نهایی را به گونهای بدست میآورند که اطلاعات دوجانبه بین خوشهبندی نهایی و اجتماع خوشهبندیهای اولیه بیشینه شود. Godnek و Hofman الگوریتمی به نام CondEns ارائه داده اند. این الگوریتم دارای سه مرحلهی اجرایی میباشد. این سه مرحله عبارتند از خوشهبندی، توسعهی خوشهبندی و ترکیب خوشهبندیها. در مرحله سوم پس از ایجاد اجتماع خوشهبندیها، جهت یافتن K خوشه، خوشهبندیهای اولیه با هم ترکیب میشوند. در الگوریتم مذکور از روش Information Bottleneck که در [۶۳] معرفی شده است، استفاده میشود. در روش آنها جهت ترکیب اجتماع خوشهبندیها رابطهی (۲-۸) به طور مستقیم و بدون نیاز به تقریب بهینه میشود.