презентация на тему: кластерный анализ

PPT 35 pages 4.0 MB Free download

Page preview (5 pages)

Scroll down 👇
1 / 35
слайд 1 презентация на тему: кластерный анализ выполнил: гуламкадыров. а кластерный анализ кластерный анализ – это совокупность методов, позволяющих классифицировать многомерные наблюдения. термин кластерный анализ, впервые введенный трионом (tryon) в 1939 году, включает в себя более 100 различных алгоритмов. в отличие от задач классификации, кластерный анализ не требует априорных предположений о наборе данных, не накладывает ограничения на представление исследуемых объектов, позволяет анализировать показатели различных типов данных (интервальным данным, частотам, бинарным данным). при этом необходимо помнить, что переменные должны измеряться в сравнимых шкалах. кластерный анализ позволяет сокращать размерность данных, делать ее наглядной. задачи кластерного анализа задачи кластерного анализа можно объединить в следующие группы: 1. разработка типологии или классификации. 2. исследование полезных концептуальных схем группирования объектов. 3. представление гипотез на основе исследования данных. 4. проверка гипотез или исследований для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных. как правило, при практическом использовании кластерного анализа одновременно решается …
2 / 35
т следующие математические характеристики: центр кластера - это среднее геометрическое место точек в пространстве переменных. дисперсия кластера - это мера рассеяния точек в пространстве относительно центра кластера: среднеквадратичное отклонение (ско) объектов относительно центра кластера: радиус кластера - максимальное расстояние точек от центра кластера: спорный объект - это объект, который по мере сходства может быть отнесен к нескольким кластерам. размер кластера может быть определен либо по радиусу кластера, либо по среднеквадратичному отклонению объектов для этого кластера. объект относится к кластеру, если расстояние от объекта до центра кластера меньше радиуса кластера. если это условие выполняется для двух и более кластеров, объект является спорным. неоднозначность данной задачи может быть устранена экспертом или аналитиком работа кластерного анализа опирается на два предположения: первое предположение - рассматриваемые признаки объекта в принципе допускают желательное разбиение совокупности объектов на кластеры. второе предположение - правильность выбора масштаба или единиц измерения признаков. методы кластерного анализа методы кластерного анализа можно разделить …
3 / 35
объекты объединяются в кластер. на последующих шагах объединение продолжается до тех пор, пока все объекты не будут составлять один кластер. фрагмент выбора метода в spss иерархические дивизимные (делимые) методы (divisive analysis, diana) эти методы являются логической противоположностью агломеративным методам. в начале работы алгоритма все объекты принадлежат одному кластеру, который на последующих шагах делится на меньшие кластеры, в результате образуется последовательность расщепляющих групп. программная реализация алгоритмов кластерного анализа широко представлена в различных инструментах data mining, которые позволяют решать задачи достаточно большой размерности. например, агломеративные методы реализованы в пакете spss, дивизимные методы - в пакете statgraf. иерархические методы кластеризации различаются правилами построения кластеров. в качестве правил выступают критерии, которые используются при решении вопроса о "схожести" объектов при их объединении в группу (агломеративные методы) либо разделения на группы (дивизимные методы). меры сходства кластеров для вычисления расстояния между объектами используются различные меры сходства (меры подобия), называемые также метриками или функциями расстояний. евклидово расстояние, это …
4 / 35
асстояния, поскольку здесь координаты не возводятся в квадрат. расстояние чебышева. это расстояние стоит использовать, когда необходимо определить два объекта как "различные", если они отличаются по какому-то одному измерению. процент несогласия. это расстояние вычисляется, если данные являются категориальными. методы объединения или связи когда каждый объект представляет собой отдельный кластер, расстояния между этими объектами определяются выбранной мерой. возникает следующий вопрос - как определить расстояния между кластерами? существуют различные правила, называемые методами объединения или связи для двух кластеров. метод ближнего соседа или одиночная связь. здесь расстояние между двумя кластерами определяется расстоянием между двумя наиболее близкими объектами (ближайшими соседями) в различных кластерах. этот метод позволяет выделять кластеры сколь угодно сложной формы при условии, что различные части таких кластеров соединены цепочками близких друг к другу элементов. в результате работы этого метода кластеры представляются длинными "цепочками" или "волокнистыми" кластерами, "сцепленными вместе" только отдельными элементами, которые случайно оказались ближе остальных друг к другу. метод наиболее удаленных соседей …
5 / 35
а объединяются такие два кластера, которые приводят к минимальному увеличению целевой функции, т.е. внутригрупповой суммы квадратов. этот метод направлен на объединение близко расположенных кластеров и "стремится" создавать кластеры малого размера. метод невзвешенного попарного среднего метод невзвешенного попарного арифметического среднего - unweighted pair-group method using arithmetic averages, upgma (sneath, sokal, 1973)). в качестве расстояния между двумя кластерами берется среднее расстояние между всеми парами объектов в них. этот метод следует использовать, если объекты действительно происходят из различных "рощ", в случаях присутствия кластеров "цепочного" типа, при предположении неравных размеров кластеров. метод взвешенного попарного среднего (метод взвешенного попарного арифметического среднего - weighted pair-group method using arithmetic averages, wpgm a (sneath, sokal, 1973)). этот метод похож на метод невзвешенного попарного среднего, разница состоит лишь в том, что здесь в качестве весового коэффициента используется размер кластера (число объектов, содержащихся в кластере). этот метод рекомендуется использовать именно при наличии предположения о кластерах разных размеров. невзвешенный центроидный метод …

Want to read more?

Download all 35 pages for free via Telegram.

Download full file

About "презентация на тему: кластерный анализ"

слайд 1 презентация на тему: кластерный анализ выполнил: гуламкадыров. а кластерный анализ кластерный анализ – это совокупность методов, позволяющих классифицировать многомерные наблюдения. термин кластерный анализ, впервые введенный трионом (tryon) в 1939 году, включает в себя более 100 различных алгоритмов. в отличие от задач классификации, кластерный анализ не требует априорных предположений о наборе данных, не накладывает ограничения на представление исследуемых объектов, позволяет анализировать показатели различных типов данных (интервальным данным, частотам, бинарным данным). при этом необходимо помнить, что переменные должны измеряться в сравнимых шкалах. кластерный анализ позволяет сокращать размерность данных, делать ее наглядной. задачи кластерного анализа задачи кластерного анал...

This file contains 35 pages in PPT format (4.0 MB). To download "презентация на тему: кластерный анализ", click the Telegram button on the left.