Logo GenDocs.ru

Поиск по сайту:  

Загрузка...

Контрольная работа - Кластерный анализ - файл 1.doc


Контрольная работа - Кластерный анализ
скачать (1271.5 kb.)

Доступные файлы (1):

1.doc1272kb.03.12.2011 13:27скачать

содержание

1.doc

  1   2   3   4   5
Содержание

Исходные данные 3

Задача 1. Многомерная классификация объектов (кластерный анализ, непараметрическая классификация) 4

Задача 2. Многомерный корреляционный и регрессионный анализ 24

Задача 3. Факторный анализ 27

Задача 4. Компонентный анализ 28

Задача 5. Дискриминантный анализ 31

Литература 32

Исходные данные


Следующий массив первичных данных является основным при выполнении контрольной работы в форме индивидуального расчетного задания.

Данные, содержащиеся в таблице, включают:

У2-индекс динамики себестоимости продукции, %;

Х1-трудоемкость единицы продукции, чел. / изд.:

Х2-удельный вес рабочих в составе персонала;

Х3-удельный вес покупных изделий в общих затратах на производство;

Х5-премии и вознаграждения на 1 работника, тыс. руб.



Y2

Х1

Х2

Х3

Х5

1

204,2

0,23

0,78

0,40

1,23

2

209,6

0,24

0,75

0,26

1,04

3

222,6

0,19

0,68

0,40

1,80

4

236,7

0,17

0,70

0,50

0,43

5

62,0

0,23

0,62

0,40

0,88

6

53,1

0,43

0,76

0,19

0,57

7

172,1

0,31

0,73

0,25

1,72

8

56,5

0,26

0,71

0,44

1,70

9

52,6

0,49

0,69

0,17

0,84

10

46,6

0,36

0,73

0,39

0,60

11

53,2

0,37

0,68

0,33

0,82

12

30,1

0,43

0,74

0,25

0,84

13

146,4

0,35

0,66

0,32

0,67

14

18,1

0,38

0,72

0,02

1,04

15

13,6

0,42

0,68

0,06

0,66

16

89,8

0,30

0,77

0,15

0,86

17

62,5

0,32

0,78

0,08

0,79

18

46,3

0,25

0,78

0,20

0,34

19

103,5

0,31

0,81

0,20

1,60

20

73,3

0,26

0,79

0,30

1,46


^

Задача 1. Многомерная классификация объектов (кластерный анализ, непараметрическая классификация)


Как показывает опыт анализа массовых источников, число объектов может достигать многих десятков и сотен; число признаков также может исчисляться десятками. Очевидно, непосредственный (визуальный) анализ матрицы данных при большом количестве объектов и признаков практически малоэффективен – можно лишь выявить отдельные особенности изучаемой структуры, извлечь иллюстративные, частные примеры.

При этом возникают задачи укрупнения, концентрации исходных данных, т.е. построения обобщенных характеристик множества признаков и множества объектов. Решение этих задач может осуществляться с помощью современных методов многомерного статистического анализа.

Методы, ориентированные на анализ структуры множества признаков и выявление обобщенных факторов, известны как методы факторного анализа, а методы анализа структуры множества объектов образуют совокупность методов многомерной классификации.

Методы многомерной классификации позволяют группировать объекты с учетом всех существенных структурно-типологических признаков и характера распределения объектов в заданной системе признаков.

Такая классификация производится на основе стремления собрать в одну группу в некотором смысле схожие объекты, причем так, чтобы объекты из разных групп были по возможности несхожими.

Кластер-анализ

Пусть все m признаков являются количественными. Тогда каждый из n объектов может быть представлен точкой в m-мерном пространстве признаков.

Характер распределения этих точек в пространстве признаков определяет структуру сходства и различия объектов в заданной системе показателей. О сходстве объектов можно судить по расстоянию между соответствующими точками.

Содержательный смысл такого понятия сходства означает, что объекты тем более близки, похожи, чем меньше различий между значениями одноименных показателей.

Для определения близости пары точек (объектов i и j) в многомерном пространстве количественных признаков используется евклидово расстояние, равное корню квадратному из суммы квадратов разностей значений одноименных показателей, взятых для данной пары объектов.

Расстояние между объектами зависит от "масштаба" признаков: признаки, диапазон значений которых велик, играют большую роль при вычислении расстояния между объектами в отличие от признаков, диапазон изменения которых мал. Например, расстояния, выраженные в километрах, будут в тысячу раз меньше, чем в метрах.

По этой причине данные обычно нормализуют, т.е. все признаки приводят к стандартному виду со средним значением, равным нулю, и стандартным отклонением, равным единице.

После нормализации объекты на оси каждого признака сохраняют свое относительное положение, но "масштаб" измерения признаков становится единым.

Если подсчитать расстояния для всех пар объектов, получится квадратная таблица D размером m ´ m (матрицу расстояний); матрица расстояний, очевидно, симметрична, поскольку расстояние от объекта i до объекта j в точности такое же, как и расстояние от объекта j до объекта i.

Агломеративно-иерархический метод

Матрица расстояний D служит основой агломеративно-иерархического метода, основная идея которого заключается в последовательном объединении группируемых объектов – сначала самых близких, а затем все более удаленных друг от друга.

Процедура построения классификации состоит из последовательных шагов, на каждом из которых производится объединение двух ближайших групп объектов (кластеров). Кластер (от англ. Cluster) - скопление, “гроздь”, группа объектов, характеризующихся общими свойствами.

Существуют различные способы определения расстояний между кластерами (различающие методы кластерного анализа). Обычно близость двух кластеров определяется как среднее значение расстояния между всеми такими парами объектов, где один объект пары принадлежит к одному кластеру, а другой – к другому.

На первом шаге процедуры агломеративно-иерархического метода определяется пара объектов, расстояние между которыми минимально.

Эти объекты объединяются в один кластер, в матрице вычеркиваются строка и столбец, соответствующие первому из этих объектов, а расстояния от нового кластера до всех остальных кластеров (объектов) вычисляются как средние из расстояний от объектов первого кластера до всех остальных.

И наконец, эти значения заносятся в строку и столбец матрицы расстояний, соответствующие второму объекту из первого кластера.

На втором шаге процедуры по матрице расстояний, уменьшенной на одну строку и один столбец, снова определяют минимальное расстояние и формируют новый кластер. Этот кластер может быть построен в результате объединения либо двух объектов, либо одного объекта с кластером, построенным на первом шаге.

Снова в матрице расстояний вычеркиваются одна строка и один столбец, а одна строка и один столбец пересчитываются и т.д.

Таким образом, иерархический метод кластерного анализа включает n – 1 аналогичных шагов.

При этом после выполнения каждого шага число кластеров уменьшается на единицу, а матрица расстояний уменьшается на одну строку и один столбец. В конце этой процедуры получится один кластер, объединяющий все n объектов.

Результаты такой классификации часто изображают в виде дендрограммы (дерева иерархической структуры), содержащего n уровней, каждый из которых соответствует одному из шагов описанного процесса последовательного укрупнения кластеров.

Исходные данные имеют не нормализованный вид

Для нормализации признаки приводим к стандартному виду со средним значением, равным нулю, и стандартным отклонением, равным единице.

Формула





Y2

Х1

Х2

Х3

Х5

1

204,2

0,23

0,78

0,40

1,23

2

209,6

0,24

0,75

0,26

1,04

3

222,6

0,19

0,68

0,40

1,80

4

236,7

0,17

0,70

0,50

0,43

5

62,0

0,23

0,62

0,40

0,88

6

53,1

0,43

0,76

0,19

0,57

7

172,1

0,31

0,73

0,25

1,72

8

56,5

0,26

0,71

0,44

1,70

9

52,6

0,49

0,69

0,17

0,84

10

46,6

0,36

0,73

0,39

0,60

11

53,2

0,37

0,68

0,33

0,82

12

30,1

0,43

0,74

0,25

0,84

13

146,4

0,35

0,66

0,32

0,67

14

18,1

0,38

0,72

0,02

1,04

15

13,6

0,42

0,68

0,06

0,66

16

89,8

0,30

0,77

0,15

0,86

17

62,5

0,32

0,78

0,08

0,79

18

46,3

0,25

0,78

0,20

0,34

19

103,5

0,31

0,81

0,20

1,60

20

73,3

0,26

0,79

0,30

1,46

Среднее

97,64

0,315

0,728

0,2655

0,9945

Стандартное отклонение

70,81055

0,220693

0,254431

0,491445

0,445273


Нормализуя каждый столбец, получаем с помощью Excel



Y2

Х1

Х2

Х3

Х5

1

1,50

-0,39

0,20

0,27

0,53

2

1,58

-0,34

0,09

-0,01

0,10

3

1,76

-0,57

-0,19

0,27

1,81

4

1,96

-0,66

-0,11

0,48

-1,27

5

-0,50

-0,39

-0,42

0,27

-0,26

6

-0,63

0,52

0,13

-0,15

-0,95

7

1,05

-0,02

0,01

-0,03

1,63

8

-0,58

-0,25

-0,07

0,36

1,58

9

-0,64

0,79

-0,15

-0,19

-0,35

10

-0,72

0,20

0,01

0,25

-0,89

11

-0,63

0,25

-0,19

0,13

-0,39

12

-0,95

0,52

0,05

-0,03

-0,35

13

0,69

0,16

-0,27

0,11

-0,73

14

-1,12

0,29

-0,03

-0,50

0,10

15

-1,19

0,48

-0,19

-0,42

-0,75

16

-0,11

-0,07

0,17

-0,24

-0,30

17

-0,50

0,02

0,20

-0,38

-0,46

18

-0,73

-0,29

0,20

-0,13

-1,47

19

0,08

-0,02

0,32

-0,13

1,36

20

-0,34

-0,25

0,24

0,07

1,05


Рассчитываем расстояния между всеми n объектами, составляем матрицу расстояний

Используем формулу






1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

1

-

0,53

1,38

1,91

2,25

2,79

1,30

2,36

2,66

2,71

2,44

2,78

1,67

2,86

3,20

1,91

2,36

3,02

1,74

1,94

2

0,53

-

1,78

1,55

2,20

2,60

1,65

2,65

2,55

2,58

2,36

2,71

1,37

2,82

3,05

1,78

2,22

2,80

2,00

2,15

3

1,38

1,78

-

3,09

3,08

3,85

0,98

2,38

3,53

3,75

3,35

3,66

2,86

3,55

4,10

2,93

3,34

4,16

1,94

2,31

4

1,91

1,55

3,09

-

2,71

2,94

3,15

3,85

3,19

2,86

2,90

3,32

1,66

3,64

3,50

2,48

2,83

2,81

3,38

3,34

5

2,25

2,20

3,08

2,71

-

1,34

2,53

1,88

1,31

0,99

0,72

1,16

1,41

1,31

1,41

0,93

1,01

1,45

1,95

1,49

6

2,79

2,60

3,85

2,94

1,34

-

3,13

2,71

0,72

0,54

0,75

0,70

1,46

1,25

0,72

1,02

0,75

0,97

2,49

2,18

7

1,30

1,65

0,98

3,15

2,53

3,13

-

1,70

2,73

3,10

2,65

2,87

2,41

2,72

3,33

2,27

2,63

3,59

1,06

1,55

8

2,36

2,65

2,38

3,85

1,88

2,71

1,70

-

2,26

2,52

2,05

2,15

2,69

1,88

2,64

2,05

2,21

3,11

0,97

0,73

9

2,66

2,55

3,53

3,19

1,31

0,72

2,73

2,26

-

0,93

0,64

0,49

1,55

0,89

0,79

1,06

0,89

1,61

2,08

1,83

10

2,71

2,58

3,75

2,86

0,99

0,54

3,10

2,52

0,93

-

0,56

0,73

1,45

1,31

0,89

1,02

0,84

0,88

2,45

2,04

11

2,44

2,36

3,35

2,90

0,72

0,75

2,65

2,05

0,64

0,56

-

0,51

1,36

0,96

0,89

0,80

0,70

1,30

1,99

1,61

12

2,78

2,71

3,66

3,32

1,16

0,70

2,87

2,15

0,49

0,73

0,51

-

1,76

0,71

0,65

1,06

0,78

1,42

2,09

1,72

13

1,67

1,37

2,86

1,66

1,41

1,46

2,41

2,69

1,55

1,45

1,36

1,76

-

2,10

1,98

1,09

1,40

1,74

2,27

2,15

14

2,86

2,82

3,55

3,64

1,31

1,25

2,72

1,88

0,89

1,31

0,96

0,71

2,10

-

0,89

1,20

0,92

1,78

1,84

1,48

15

3,20

3,05

4,10

3,50

1,41

0,72

3,33

2,64

0,79

0,89

0,89

0,65

1,98

0,89

-

1,35

0,96

1,25

2,58

2,21

16

1,91

1,78

2,93

2,48

0,93

1,02

2,27

2,05

1,06

1,02

0,80

1,06

1,09

1,20

1,35

-

0,45

1,34

1,68

1,41

17

2,36

2,22

3,34

2,83

1,01

0,75

2,63

2,21

0,89

0,84

0,70

0,78

1,40

0,92

0,96

0,45

-

1,11

1,93

1,60

18

3,02

2,80

4,16

2,81

1,45

0,97

3,59

3,11

1,61

0,88

1,30

1,42

1,74

1,78

1,25

1,34

1,11

-

2,96

2,55

19

1,74

2,00

1,94

3,38

1,95

2,49

1,06

0,97

2,08

2,45

1,99

2,09

2,27

1,84

2,58

1,68

1,93

2,96

-

0,62

20

1,94

2,15

2,31

3,34

1,49

2,18

1,55

0,73

1,83

2,04

1,61

1,72

2,15

1,48

2,21

1,41

1,60

2,55

0,62

-

мин

0,53

0,53

0,98

1,55

0,72

0,54

0,98

0,73

0,49

0,54

0,51

0,49

1,09

0,71

0,65

0,45

0,45

0,88

0,62

0,62

Пара наиболее близких объектов – с номерами (16; 17) (расстояние между ними равно 0,45)

Эти объекты объединяем в кластер с весовым коэффициентом, равным 2 (число объектов в кластере). Присваиваем ему имя А1

Расстояния от кластера А1 до всех остальных кластеров (объектов) вычисляются как средние из расстояний от объектов первого кластера до всех остальных.

Эти значения заносятся в строку и столбец матрицы расстояний, соответствующие второму объекту из кластера А1

Определим координаты кластера А1



;

;

В матрице расстояний вычёркиваем 16 строку и 16 столбец, получаем




1

2

3

4

5

6

7

8

9

10

11

12

13

14

15
  1   2   3   4   5



Скачать файл (1271.5 kb.)

Поиск по сайту:  

© gendocs.ru
При копировании укажите ссылку.
обратиться к администрации