Контрольная работа - Кластерный анализ
скачать (1271.5 kb.)
Доступные файлы (1):
1.doc | 1272kb. | 03.12.2011 13:27 | ![]() |
содержание
- Смотрите также:
- №2 [ документ ]
- Отчет по лабораторной работе №2 по курсу «Системы искусственного интеллекта» [ документ ]
- Лабоцкий В.В. Управление знаниями [ документ ]
- Интеллектуальный анализ рынка [ документ ]
- Интеллектуальный анализ рынка видеокарт [ документ ]
- Интеллектуальный анализ расходов и доходов субъектов РФ [ документ ]
- Интеллектуальный анализ рынка LCD мониторов [ документ ]
- Интеллектуальный анализ рынка услуг платного хостинга [ документ ]
- Учет и анализ банкротств [ лабораторная работа ]
- Анализ финансовой отчетности [ лабораторная работа ]
- Анализ финансовой отчетности предприятия ОАО Татэнергосбыт [ лабораторная работа ]
- Маркетинговое исследование рынка плиточного шоколада [ лабораторная работа ]
1.doc
СодержаниеИсходные данные 3
Задача 1. Многомерная классификация объектов (кластерный анализ, непараметрическая классификация) 4
Задача 2. Многомерный корреляционный и регрессионный анализ 24
Задача 3. Факторный анализ 27
Задача 4. Компонентный анализ 28
Задача 5. Дискриминантный анализ 31
Литература 32
Исходные данные
Следующий массив первичных данных является основным при выполнении контрольной работы в форме индивидуального расчетного задания.
Данные, содержащиеся в таблице, включают:
У2-индекс динамики себестоимости продукции, %;
Х1-трудоемкость единицы продукции, чел. / изд.:
Х2-удельный вес рабочих в составе персонала;
Х3-удельный вес покупных изделий в общих затратах на производство;
Х5-премии и вознаграждения на 1 работника, тыс. руб.
№ | Y2 | Х1 | Х2 | Х3 | Х5 |
1 | 204,2 | 0,23 | 0,78 | 0,40 | 1,23 |
2 | 209,6 | 0,24 | 0,75 | 0,26 | 1,04 |
3 | 222,6 | 0,19 | 0,68 | 0,40 | 1,80 |
4 | 236,7 | 0,17 | 0,70 | 0,50 | 0,43 |
5 | 62,0 | 0,23 | 0,62 | 0,40 | 0,88 |
6 | 53,1 | 0,43 | 0,76 | 0,19 | 0,57 |
7 | 172,1 | 0,31 | 0,73 | 0,25 | 1,72 |
8 | 56,5 | 0,26 | 0,71 | 0,44 | 1,70 |
9 | 52,6 | 0,49 | 0,69 | 0,17 | 0,84 |
10 | 46,6 | 0,36 | 0,73 | 0,39 | 0,60 |
11 | 53,2 | 0,37 | 0,68 | 0,33 | 0,82 |
12 | 30,1 | 0,43 | 0,74 | 0,25 | 0,84 |
13 | 146,4 | 0,35 | 0,66 | 0,32 | 0,67 |
14 | 18,1 | 0,38 | 0,72 | 0,02 | 1,04 |
15 | 13,6 | 0,42 | 0,68 | 0,06 | 0,66 |
16 | 89,8 | 0,30 | 0,77 | 0,15 | 0,86 |
17 | 62,5 | 0,32 | 0,78 | 0,08 | 0,79 |
18 | 46,3 | 0,25 | 0,78 | 0,20 | 0,34 |
19 | 103,5 | 0,31 | 0,81 | 0,20 | 1,60 |
20 | 73,3 | 0,26 | 0,79 | 0,30 | 1,46 |
^
Как показывает опыт анализа массовых источников, число объектов может достигать многих десятков и сотен; число признаков также может исчисляться десятками. Очевидно, непосредственный (визуальный) анализ матрицы данных при большом количестве объектов и признаков практически малоэффективен – можно лишь выявить отдельные особенности изучаемой структуры, извлечь иллюстративные, частные примеры.
При этом возникают задачи укрупнения, концентрации исходных данных, т.е. построения обобщенных характеристик множества признаков и множества объектов. Решение этих задач может осуществляться с помощью современных методов многомерного статистического анализа.
Методы, ориентированные на анализ структуры множества признаков и выявление обобщенных факторов, известны как методы факторного анализа, а методы анализа структуры множества объектов образуют совокупность методов многомерной классификации.
Методы многомерной классификации позволяют группировать объекты с учетом всех существенных структурно-типологических признаков и характера распределения объектов в заданной системе признаков.
Такая классификация производится на основе стремления собрать в одну группу в некотором смысле схожие объекты, причем так, чтобы объекты из разных групп были по возможности несхожими.
Кластер-анализ
Пусть все m признаков являются количественными. Тогда каждый из n объектов может быть представлен точкой в m-мерном пространстве признаков.
Характер распределения этих точек в пространстве признаков определяет структуру сходства и различия объектов в заданной системе показателей. О сходстве объектов можно судить по расстоянию между соответствующими точками.
Содержательный смысл такого понятия сходства означает, что объекты тем более близки, похожи, чем меньше различий между значениями одноименных показателей.
Для определения близости пары точек (объектов i и j) в многомерном пространстве количественных признаков используется евклидово расстояние, равное корню квадратному из суммы квадратов разностей значений одноименных показателей, взятых для данной пары объектов.
Расстояние между объектами зависит от "масштаба" признаков: признаки, диапазон значений которых велик, играют большую роль при вычислении расстояния между объектами в отличие от признаков, диапазон изменения которых мал. Например, расстояния, выраженные в километрах, будут в тысячу раз меньше, чем в метрах.
По этой причине данные обычно нормализуют, т.е. все признаки приводят к стандартному виду со средним значением, равным нулю, и стандартным отклонением, равным единице.
После нормализации объекты на оси каждого признака сохраняют свое относительное положение, но "масштаб" измерения признаков становится единым.
Если подсчитать расстояния для всех пар объектов, получится квадратная таблица D размером m ´ m (матрицу расстояний); матрица расстояний, очевидно, симметрична, поскольку расстояние от объекта i до объекта j в точности такое же, как и расстояние от объекта j до объекта i.
Агломеративно-иерархический метод
Матрица расстояний D служит основой агломеративно-иерархического метода, основная идея которого заключается в последовательном объединении группируемых объектов – сначала самых близких, а затем все более удаленных друг от друга.
Процедура построения классификации состоит из последовательных шагов, на каждом из которых производится объединение двух ближайших групп объектов (кластеров). Кластер (от англ. Cluster) - скопление, “гроздь”, группа объектов, характеризующихся общими свойствами.
Существуют различные способы определения расстояний между кластерами (различающие методы кластерного анализа). Обычно близость двух кластеров определяется как среднее значение расстояния между всеми такими парами объектов, где один объект пары принадлежит к одному кластеру, а другой – к другому.
На первом шаге процедуры агломеративно-иерархического метода определяется пара объектов, расстояние между которыми минимально.
Эти объекты объединяются в один кластер, в матрице вычеркиваются строка и столбец, соответствующие первому из этих объектов, а расстояния от нового кластера до всех остальных кластеров (объектов) вычисляются как средние из расстояний от объектов первого кластера до всех остальных.
И наконец, эти значения заносятся в строку и столбец матрицы расстояний, соответствующие второму объекту из первого кластера.
На втором шаге процедуры по матрице расстояний, уменьшенной на одну строку и один столбец, снова определяют минимальное расстояние и формируют новый кластер. Этот кластер может быть построен в результате объединения либо двух объектов, либо одного объекта с кластером, построенным на первом шаге.
Снова в матрице расстояний вычеркиваются одна строка и один столбец, а одна строка и один столбец пересчитываются и т.д.
Таким образом, иерархический метод кластерного анализа включает n – 1 аналогичных шагов.
При этом после выполнения каждого шага число кластеров уменьшается на единицу, а матрица расстояний уменьшается на одну строку и один столбец. В конце этой процедуры получится один кластер, объединяющий все n объектов.
Результаты такой классификации часто изображают в виде дендрограммы (дерева иерархической структуры), содержащего n уровней, каждый из которых соответствует одному из шагов описанного процесса последовательного укрупнения кластеров.
Исходные данные имеют не нормализованный вид
Для нормализации признаки приводим к стандартному виду со средним значением, равным нулю, и стандартным отклонением, равным единице.
Формула

№ | Y2 | Х1 | Х2 | Х3 | Х5 |
1 | 204,2 | 0,23 | 0,78 | 0,40 | 1,23 |
2 | 209,6 | 0,24 | 0,75 | 0,26 | 1,04 |
3 | 222,6 | 0,19 | 0,68 | 0,40 | 1,80 |
4 | 236,7 | 0,17 | 0,70 | 0,50 | 0,43 |
5 | 62,0 | 0,23 | 0,62 | 0,40 | 0,88 |
6 | 53,1 | 0,43 | 0,76 | 0,19 | 0,57 |
7 | 172,1 | 0,31 | 0,73 | 0,25 | 1,72 |
8 | 56,5 | 0,26 | 0,71 | 0,44 | 1,70 |
9 | 52,6 | 0,49 | 0,69 | 0,17 | 0,84 |
10 | 46,6 | 0,36 | 0,73 | 0,39 | 0,60 |
11 | 53,2 | 0,37 | 0,68 | 0,33 | 0,82 |
12 | 30,1 | 0,43 | 0,74 | 0,25 | 0,84 |
13 | 146,4 | 0,35 | 0,66 | 0,32 | 0,67 |
14 | 18,1 | 0,38 | 0,72 | 0,02 | 1,04 |
15 | 13,6 | 0,42 | 0,68 | 0,06 | 0,66 |
16 | 89,8 | 0,30 | 0,77 | 0,15 | 0,86 |
17 | 62,5 | 0,32 | 0,78 | 0,08 | 0,79 |
18 | 46,3 | 0,25 | 0,78 | 0,20 | 0,34 |
19 | 103,5 | 0,31 | 0,81 | 0,20 | 1,60 |
20 | 73,3 | 0,26 | 0,79 | 0,30 | 1,46 |
Среднее | 97,64 | 0,315 | 0,728 | 0,2655 | 0,9945 |
Стандартное отклонение | 70,81055 | 0,220693 | 0,254431 | 0,491445 | 0,445273 |
Нормализуя каждый столбец, получаем с помощью Excel
№ | Y2 | Х1 | Х2 | Х3 | Х5 |
1 | 1,50 | -0,39 | 0,20 | 0,27 | 0,53 |
2 | 1,58 | -0,34 | 0,09 | -0,01 | 0,10 |
3 | 1,76 | -0,57 | -0,19 | 0,27 | 1,81 |
4 | 1,96 | -0,66 | -0,11 | 0,48 | -1,27 |
5 | -0,50 | -0,39 | -0,42 | 0,27 | -0,26 |
6 | -0,63 | 0,52 | 0,13 | -0,15 | -0,95 |
7 | 1,05 | -0,02 | 0,01 | -0,03 | 1,63 |
8 | -0,58 | -0,25 | -0,07 | 0,36 | 1,58 |
9 | -0,64 | 0,79 | -0,15 | -0,19 | -0,35 |
10 | -0,72 | 0,20 | 0,01 | 0,25 | -0,89 |
11 | -0,63 | 0,25 | -0,19 | 0,13 | -0,39 |
12 | -0,95 | 0,52 | 0,05 | -0,03 | -0,35 |
13 | 0,69 | 0,16 | -0,27 | 0,11 | -0,73 |
14 | -1,12 | 0,29 | -0,03 | -0,50 | 0,10 |
15 | -1,19 | 0,48 | -0,19 | -0,42 | -0,75 |
16 | -0,11 | -0,07 | 0,17 | -0,24 | -0,30 |
17 | -0,50 | 0,02 | 0,20 | -0,38 | -0,46 |
18 | -0,73 | -0,29 | 0,20 | -0,13 | -1,47 |
19 | 0,08 | -0,02 | 0,32 | -0,13 | 1,36 |
20 | -0,34 | -0,25 | 0,24 | 0,07 | 1,05 |
Рассчитываем расстояния между всеми n объектами, составляем матрицу расстояний
Используем формулу

| 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 |
1 | - | 0,53 | 1,38 | 1,91 | 2,25 | 2,79 | 1,30 | 2,36 | 2,66 | 2,71 | 2,44 | 2,78 | 1,67 | 2,86 | 3,20 | 1,91 | 2,36 | 3,02 | 1,74 | 1,94 |
2 | 0,53 | - | 1,78 | 1,55 | 2,20 | 2,60 | 1,65 | 2,65 | 2,55 | 2,58 | 2,36 | 2,71 | 1,37 | 2,82 | 3,05 | 1,78 | 2,22 | 2,80 | 2,00 | 2,15 |
3 | 1,38 | 1,78 | - | 3,09 | 3,08 | 3,85 | 0,98 | 2,38 | 3,53 | 3,75 | 3,35 | 3,66 | 2,86 | 3,55 | 4,10 | 2,93 | 3,34 | 4,16 | 1,94 | 2,31 |
4 | 1,91 | 1,55 | 3,09 | - | 2,71 | 2,94 | 3,15 | 3,85 | 3,19 | 2,86 | 2,90 | 3,32 | 1,66 | 3,64 | 3,50 | 2,48 | 2,83 | 2,81 | 3,38 | 3,34 |
5 | 2,25 | 2,20 | 3,08 | 2,71 | - | 1,34 | 2,53 | 1,88 | 1,31 | 0,99 | 0,72 | 1,16 | 1,41 | 1,31 | 1,41 | 0,93 | 1,01 | 1,45 | 1,95 | 1,49 |
6 | 2,79 | 2,60 | 3,85 | 2,94 | 1,34 | - | 3,13 | 2,71 | 0,72 | 0,54 | 0,75 | 0,70 | 1,46 | 1,25 | 0,72 | 1,02 | 0,75 | 0,97 | 2,49 | 2,18 |
7 | 1,30 | 1,65 | 0,98 | 3,15 | 2,53 | 3,13 | - | 1,70 | 2,73 | 3,10 | 2,65 | 2,87 | 2,41 | 2,72 | 3,33 | 2,27 | 2,63 | 3,59 | 1,06 | 1,55 |
8 | 2,36 | 2,65 | 2,38 | 3,85 | 1,88 | 2,71 | 1,70 | - | 2,26 | 2,52 | 2,05 | 2,15 | 2,69 | 1,88 | 2,64 | 2,05 | 2,21 | 3,11 | 0,97 | 0,73 |
9 | 2,66 | 2,55 | 3,53 | 3,19 | 1,31 | 0,72 | 2,73 | 2,26 | - | 0,93 | 0,64 | 0,49 | 1,55 | 0,89 | 0,79 | 1,06 | 0,89 | 1,61 | 2,08 | 1,83 |
10 | 2,71 | 2,58 | 3,75 | 2,86 | 0,99 | 0,54 | 3,10 | 2,52 | 0,93 | - | 0,56 | 0,73 | 1,45 | 1,31 | 0,89 | 1,02 | 0,84 | 0,88 | 2,45 | 2,04 |
11 | 2,44 | 2,36 | 3,35 | 2,90 | 0,72 | 0,75 | 2,65 | 2,05 | 0,64 | 0,56 | - | 0,51 | 1,36 | 0,96 | 0,89 | 0,80 | 0,70 | 1,30 | 1,99 | 1,61 |
12 | 2,78 | 2,71 | 3,66 | 3,32 | 1,16 | 0,70 | 2,87 | 2,15 | 0,49 | 0,73 | 0,51 | - | 1,76 | 0,71 | 0,65 | 1,06 | 0,78 | 1,42 | 2,09 | 1,72 |
13 | 1,67 | 1,37 | 2,86 | 1,66 | 1,41 | 1,46 | 2,41 | 2,69 | 1,55 | 1,45 | 1,36 | 1,76 | - | 2,10 | 1,98 | 1,09 | 1,40 | 1,74 | 2,27 | 2,15 |
14 | 2,86 | 2,82 | 3,55 | 3,64 | 1,31 | 1,25 | 2,72 | 1,88 | 0,89 | 1,31 | 0,96 | 0,71 | 2,10 | - | 0,89 | 1,20 | 0,92 | 1,78 | 1,84 | 1,48 |
15 | 3,20 | 3,05 | 4,10 | 3,50 | 1,41 | 0,72 | 3,33 | 2,64 | 0,79 | 0,89 | 0,89 | 0,65 | 1,98 | 0,89 | - | 1,35 | 0,96 | 1,25 | 2,58 | 2,21 |
16 | 1,91 | 1,78 | 2,93 | 2,48 | 0,93 | 1,02 | 2,27 | 2,05 | 1,06 | 1,02 | 0,80 | 1,06 | 1,09 | 1,20 | 1,35 | - | 0,45 | 1,34 | 1,68 | 1,41 |
17 | 2,36 | 2,22 | 3,34 | 2,83 | 1,01 | 0,75 | 2,63 | 2,21 | 0,89 | 0,84 | 0,70 | 0,78 | 1,40 | 0,92 | 0,96 | 0,45 | - | 1,11 | 1,93 | 1,60 |
18 | 3,02 | 2,80 | 4,16 | 2,81 | 1,45 | 0,97 | 3,59 | 3,11 | 1,61 | 0,88 | 1,30 | 1,42 | 1,74 | 1,78 | 1,25 | 1,34 | 1,11 | - | 2,96 | 2,55 |
19 | 1,74 | 2,00 | 1,94 | 3,38 | 1,95 | 2,49 | 1,06 | 0,97 | 2,08 | 2,45 | 1,99 | 2,09 | 2,27 | 1,84 | 2,58 | 1,68 | 1,93 | 2,96 | - | 0,62 |
20 | 1,94 | 2,15 | 2,31 | 3,34 | 1,49 | 2,18 | 1,55 | 0,73 | 1,83 | 2,04 | 1,61 | 1,72 | 2,15 | 1,48 | 2,21 | 1,41 | 1,60 | 2,55 | 0,62 | - |
мин | 0,53 | 0,53 | 0,98 | 1,55 | 0,72 | 0,54 | 0,98 | 0,73 | 0,49 | 0,54 | 0,51 | 0,49 | 1,09 | 0,71 | 0,65 | 0,45 | 0,45 | 0,88 | 0,62 | 0,62 |
Пара наиболее близких объектов – с номерами (16; 17) (расстояние между ними равно 0,45)
Эти объекты объединяем в кластер с весовым коэффициентом, равным 2 (число объектов в кластере). Присваиваем ему имя А1
Расстояния от кластера А1 до всех остальных кластеров (объектов) вычисляются как средние из расстояний от объектов первого кластера до всех остальных.
Эти значения заносятся в строку и столбец матрицы расстояний, соответствующие второму объекту из кластера А1
Определим координаты кластера А1





В матрице расстояний вычёркиваем 16 строку и 16 столбец, получаем
| 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 |
Скачать файл (1271.5 kb.)