خوشه بندی

در تجزیه و تحلیل خوشه یا خوشه بندی، گروه بندی مجموعه ای از اشیاء انجام می شود اینکار به این صورت است که اشیاء در یک گروه (به نام خوشه) در مقایسه با دیگر دسته ها (خوشه ها) مشابه تر هستند. این وظیفه اصلی داده کاوی اکتشافی است و یک روش معمول برای تجزیه و تحلیل داده های آماری است که در بسیاری از زمینه ها از جمله یادگیری ماشین، تشخیص الگو، تجزیه و تحلیل تصویر، بازیابی اطلاعات، بیوانفورماتیک، فشرده سازی داده ها و گرافیک کامپیوتری استفاده می شود.
مدل های متصل: به عنوان مثال، خوشه بندی سلسله مراتبی، مدل هایی براساس فاصله متصل را ایجاد می کند.
مدل های مرکزی: به عنوان مثال، الگوریتم k-means، هر خوشه را با یک بردار متوسط نشان می دهد.
مدل های توزیع: خوشه ها با استفاده از توزیع های آماری، مانند توزیع نرمال چند متغیره که در الگوریتم حداکثر انتظار، استفاده شده است.
مدل های تراکم: به عنوان مثال، DBSCAN و OPTICS خوشه را به عنوان مناطق متراکم متصل در فضای داده تعریف می کنند.
مدل های زیر فضایی: در biclustering (که به عنوان خوشه مشترک یا خوشه ای دو حالت شناخته می شود)، خوشه ها با هر دو اعضای خوشه و ویژگی های مرتبط مدل سازی می شوند.
مدل های گروهی: برخی از الگوریتم ها یک مدل تصحیح شده برای نتایج خود را ارائه نمی دهند و فقط اطلاعات گروه بندی را ارائه می دهند.
مدل های مبتنی بر گراف: یک کلاس، یعنی یک زیر مجموعه از گره ها در یک گراف به طوری که هر دو گره در زیر مجموعه با یک لبه متصل می شود که می تواند به عنوان یک شکل اولیه از خوشه مورد توجه قرار گیرد.
مدل های عصبی: شبکه عصبی غیرقابل نظارت، شناخته شده ترین نقشه خود سازمانی است و معمولاً این مدل ها می توانند به عنوان مشابه با یک یا چند مدل فوق شامل مدل های زیر فضایی، زمانی که شبکه های عصبی یک فرم تجزیه و تحلیل مؤلفه اصلی یا مستقل تجزیه و تحلیل المان می باشد .
تجزیه و تحلیل خوشه ای خود یک الگوریتم خاص نیست، بلکه روند کلی است و می تواند توسط الگوریتم های مختلفی به دست آید که در درک آنچه که یک خوشه را تشکیل می دهند و نحوه کارآمدی آن ها را پیدا می کند.
اصطلاحات خوشه ها شامل گروه هایی با فاصله های کم بین اعضای خوشه، مناطق متراکم فضای داده، فواصل و یا توزیع های آماری خاص است. بنابراین خوشه بندی می تواند به عنوان یک مسئله بهینه سازی چند هدفه صورت گیرد. الگوریتم خوشه بندی مناسب و تنظیمات پارامتر (از جمله پارامترهایی مانند تابع فاصله مورد استفاده، آستانه تراکم یا تعداد خوشه مورد انتظار) بستگی به تنظیم مجموعه داده ها توسط فرد و استفاده خاص فرد از نتایج دارد. تجزیه و تحلیل خوشه ای یک روش اتوماتیک نیست، بلکه یک فرآیند تکراری از کشف دانش یا بهینه سازی چند هدفه تعاملی است که شامل آزمایش و شکست است. اغلب لازم است که داده های پیش پردازش شده و پارامترهای مدل اصلاح شوند تا نتیجه حاصل، همان نتیجهٔ دلخواه باشد.
علاوه بر اصطلاحات خوشه بندی، تعدادی از اصطلاح با معانی مشابه وجود دارد، از جمله طبقه بندی خودکار، طبقه بندی عددی، روش شناسی و تجزیه و تحلیل توپولوژیکی. تفاوت های کم اغلب در نتایج استفاده می شود: در داده کاوی، نتیجه گروه ها مورد توجه هست و در طبقه بندی خودکار، قدرت تشخیصی مورد توجه است.

wiki: خوشه بندی

فرهنگ فارسی

دانشنامه عمومی

فرهنگستان زبان و ادب