Logo GenDocs.ru

Поиск по сайту:  


Загрузка...

Изучение методов интеллектуального анализа данных в среде STATGRAPHICS - файл иис_statgraphics.doc


Изучение методов интеллектуального анализа данных в среде STATGRAPHICS
скачать (835.3 kb.)

Доступные файлы (1):

иис_statgraphics.doc980kb.25.01.2010 14:48скачать

содержание
Загрузка...

иис_statgraphics.doc

Реклама MarketGid:
Загрузка...
Государственное образовательное учреждение высшего профессионального образования

УФИМСКИЙ ГОСУДАРСТВЕННЫЙ АВИАЦИОННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ

Кафедра Геоинформационных систем


Отчет

к лабораторной работе №2

по дисциплине «Интеллектуальные информационные системы»
Изучение методов интеллектуального анализа данных в среде STATGRAPHICS. Компонентный анализ. Кластерный анализ.

Выполнили:

студенты гр.

Проверил преподаватель:

Уфа 2010

ЛАБОРАТОРНАЯ РАБОТА №2. ИЗУЧЕНИЕ МЕТОДОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ В СРЕДЕ STATGRAPHICS. КОМПОНЕНТНЫЙ АНАЛИЗ. КЛАСТЕРНЫЙ АНАЛИЗ.
1 Цель работы
Изучение особенностей применения компонентного и кластерного анализа в среде StatGraphics с целью исследования структуры данных и извлечения знаний.
^ 2 Теоретические сведения
2.1 Компонентный анализ
С геометрических позиций алгоритм построения главных компонент (ГК) состоит в следующем.

Производится центрирование исходных данных (рисунок 1а); система координат переносится в центр распределения данных (центроид) (рисунок 1б).



Рисунок 1 – Формирование главных компонент
Затем осуществляется формирование главных компонент F1, F2,…,Fp (рисунок 1в). Линейные комбинации выбираются таким образом, что среди всех возможных комбинаций первая ГК F1(X) обладает наибольшей дисперсией. Дисперсия σ стремится к максимуму. Графически это выглядит как ориентация новой координатной оси F1 вдоль направления наибольшей вытянутости эллипсоида рассеивания объектов в исходном пространстве P признаков.

Вторая ГК F2(X) перпендикулярна первой и строится исходя из предположений нахождения максимальной дисперсии среди всех оставшихся линейных комбинаций.

Графически это интерпретируется направлением наибольшей вытянутости эллипсоида рассеивания, который перпендикулярен первой главной компоненте.

Достоинства метода.

1. С точки зрения визуализации многомерных данных метод обладает свойствами наименьшего искажения структуры исходного пространства при проецировании в пространство меньшей размерности.

2 Метод применяется успешно в системе с другими методами исследования данных, например в корреляционно-регрессионном анализе.

Недостатки метода.

Возможна ситуация, когда весовые коэффициенты имеют близкие по величине значения. В этом случае результат слабо интерпретируем. Эта проблема решается применением других видов анализа, например факторного, добавлением или исключением переменных из анализа.
2.2 Кластерный анализ
^ Постановка задачи кластеризации. Дано: множество n объектов, характеризуемых m признаками. Необходимо выполнить разбиение заданного множества объектов на заранее неизвестное или в редких случаях заданное количество групп (кластеров) на основании некоторого математического критерия кластеризации.

Claster (гроздь, пучок, скопление) – группа элементов, которые характеризуются какими-то общими свойствами. Критерий качества кластеризации в той или иной мере должен отражать следующие неформальные требования:

1) внутри групп объекты должны быть тесно связанны между собой;

2) объекты разных групп должны быть далеки друг от друга;

3) распределение объектов по группам должно быть равномерным.

Методы кластерного анализа позволяют решать следующие задачи:

1) проведение классификации объектов с учетом множества признаков с целью углубления знаний о множестве изучаемых признаков;

2) проверка выдвигаемых предположений о наличии некоторой структуры в изучаемом множестве объектов;

3) построение новых классификаций для слабо изученных явлений, то есть поиск в изучаемом множестве заранее неизвестной структуры.

Все методы кластерного анализа делятся на две группы:

  • агломеративные (объединяющие) – построены на основе последовательного объединения объектов в группы.

  • дивизионные (разделяющие) – построены на основе расчленения группы на отдельные объекты.

Основные проблемы в кластерном анализе.

1 Определение мер сходства (метрики).

Метрика – мера близости между двумя объектами в m-мерном пространстве.

От выбранной метрики зависит окончательный вариант разбиения.

1) евклидово расстояние: ,

2) взвешенное евклидово расстояние: ,

3) расстояние city-block:,

4) расстояние Минковского: ,

где – расстояние между i-м и j-м объектами;

xil, xjlзначения l-й переменной соответственно у i-го и j-го объектов;

wk вес, приписываемый k-й переменной.

Обобщенный алгоритм кластерного анализа.

Шаг 1. Задается начальное (искусственное или произвольное) разбиение на кластеры, и определяется некоторый математический критерий качества автоматической классификации.

Шаг 2. Объекты переносятся из кластера в кластер до тех пор, пока значение критерия качества не перестанет улучшаться. При этом возможен либо полный перебор вариантов, либо сокращенный на основании каких-либо эвристик.
^ 3 Ход работы
3.1 Рассмотрим пример, относящийся к сравнительному оцениванию автомобилей. Создадим таблицу с данными: выборочные сведения о фирме-изготовителе, название модели, а также параметры автомобиля: вес (weight), число цилиндров (cylinders), ускорение (accel), объем двигателя (displace) и мощность (horspower) (рисунок 2).

Рисунок 2 - Таблица с данными


Рассмотрим метод главных компонент. Выберем Special > Multivariate Methods > Principal Components. Появляется окно диалога для задания анализируемых переменных, выберем переменные, показанные на рисунке 3.

Рисунок 3 – Окно задания переменных для анализа
Получаем исходную сводку анализа метода ГК (рисунок 4), из которой заключаем, что анализу подвергаются переменные weight
(вес)
, cylinders (кол_цилиндров), accel (ускорение), displace (объем) и horspower (мощность) и число объектов составляет 151.

Рисунок 4 – Исходная сводка метода главных компонент
Далее следует информация непосредственно метода ГК: собственные значения ГК, упорядоченные по величине (Eigenvalue); процент дисперсии, приходящийся на каждую выделенную ГК (Percent of Variance); накопленный процент дисперсии (Cumulative Percentage). Приведенные цифры говорят о том, что уже первые две главные компоненты описывают 90,11 % дисперсии исходных данных.

Нажав на правую клавишу мыши, выберем пункт ^ Analysis Options и установим количество компонент, равное трем (рисунок 5).

Рисунок 5 – Установка числа компонент
Для более детального анализа нажмем кнопку табличных опций (вторая слева в верхнем ряду) и в соответствующем окне диалога (рисунок 6) установим флажок компонентных весов (Component Weights), после чего получим следующую таблицу (рисунок 7).

Рисунок 6 – Установка табличных опции
Как следует из полученных цифр, в первой ГК примерно одинаковые по величине положительные коэффициенты имеют вес, количество цилиндров, объем двигателя и мощность. Вместе с тем, во второй ГК превалирует только одна величина: ускорение. А в третьей ГК наблюдается сочетание веса машины и ее мощности (с положительным знаком), которому противопоставляется количество цилиндров (с отрицательным знаком).

Перейдем к рассмотрению диаграммы рассеивания всей совокупности автомашин в пространстве выделенных трех первых ГК. Для этого щелкнем левой кнопкой мыши на кнопке графических опций и инициализируем данное трехмерное отображение (рисунок 8).



Рисунок 7 – Веса признаков в главных компонентах

Рисунок 8 – Проекция исследуемых автомобилей
На представленном рисунке хорошо видно, что вся исследуемая совокупность автомашин разделилась на три достаточно четко выраженные группы. Для первой, наиболее многочисленной группы характерны сравнительно небольшие вес, количество цилиндров, мощность и объем двигателя (первая группа слева). Вместе с тем, большая доля автомашин этой группы обладают хорошим ускорением (высокие значения 2-й ГК) и высоким соотношением веса и мощности к количеству цилиндров (3-я ГК).

Рассмотрим применение кластерного анализа.

Выберем Special > Multivariate Methods > Cluster Analysis. Появляется окно диалога для ввода данных в кластерный анализ (рисунок 9).


Рисунок 9 - Окно диалога ввода данных для кластерного анализа
Щелкнем правой кнопкой мыши — на экране появляется окно диалога для выбора параметров кластерного анализа. Установим флажок Wards, чтобы выделение кластеров происходило по методу Варда (рисунок 10).

Рисунок 10 – Окно диалога для выбора параметров кластерного анализа
Выберем отображение в виде дендрограммы (Dendrogram) (рисунок 11).



Рисунок 11 - Дендрограмма, полученная методом Варда для одного кластера
Дендрограмма отображает иерархическую структуру группирования объектов. На ней отчетливо видны как минимум три группы – отсюда следует, что для более подробного рассмотрения группировок следует задать их количество равным 3 (рисунок 12). Тогда дендограмма примет вид, изображенный на рисунке 13.

Рисунок 12 – Сводка кластерного анализа



Рисунок 13 - Дендрограмма, полученная методом Варда для трех кластеров
Нажмем кнопку табличных опций. Установим Membership Table (таблица принадлежности наблюдений). В данной таблице описаны выбранные параметры кластерного анализа и дается полный список всех наблюдений, их имена и номера кластеров, в которые входят указанные наблюдения (рисунок 14).


Рисунок 14 – Таблица принадлежности наблюдений кластерам
Создадим двухмерную диаграмму рассеивания (рисунок 15), выбрав по оси Х значения веса, по оси Y – мощности.


Рисунок 15 – Двухмерная диаграмма рассеивания
3.2 Рассмотрим пример, относящийся к деятельности предприятия. На рисунке 16 показана таблица, содержащая основные показатели:

Y1 - производительность труда;

X5 - удельный вес рабочих в составе промышленно-производственного персонала;

X7 - коэффициент сменности оборудования (смен);

X9 - удельный вес потерь от брака (%);

X10 - фондоотдача активной части основных производственных фондов.

Рисунок 16 – Основные показатели деятельности предприятия
Проведем компонентный анализ. Выберем Special > Multivariate Methods > Principal Components. В результате (рисунок 17) получаем исходную сводку анализа метода, из которой заключаем, что анализу подвергаются переменные Y1( производительность труда, X7 (коэффициент сменности оборудования) (смен), X9 (удельный вес потерь от брака) (%);и что число объектов составляет 17.

Рисунок 17 – Сводка анализа
С помощью пункта ^ Analysis Options установим количество компонент, равное трем. В табличных опциях установим флажок компонентных весов (Component Weights), после чего получим следующую таблицу (рисунок 18).

Рисунок 18 – Веса признаков в главных компонентах
Как следует из полученных цифр, в первой ГК примерно одинаковые по величине положительные коэффициенты имеют производительность труда (Y1), удельный вес потерь от брака (X9). Вместе с тем, во второй ГК превалирует только одна величина: коэффициент сменности оборудования (Х7). А в третьей ГК – удельный вес рабочих в составе персонала (Х5).

Перейдем к рассмотрению диаграммы рассеивания. Для этого щелкнем левой кнопкой мыши на кнопке графических опций и инициализируем данное трехмерное отображение (рисунок 19).




Рисунок 19 – Проекция исследуемых предприятий в пространство трех ГК
Рассмотрим применение кластерного анализа.

Выберем Special > Multivariate Methods > Cluster Analysis. В окне диалога для выбора параметров кластерного анализа установим флажок Wards, чтобы выделение кластеров происходило по методу Варда. Выберем отображение в виде дендрограммы (Dendrogram) (рисунок 20). Затем зададим количество кластеров равным трем, тогда дендограмма будет иметь вид, показанный на рисунке 21.



Рисунок 20 - Дендрограмма, полученная методом Варда для одного кластера



Рисунок 21 - Дендрограмма, полученная методом Варда для трех кластеров
Нажмем кнопку табличных опций. Установим Membership Table (таблица принадлежности наблюдений). В данной таблице описаны выбранные параметры кластерного анализа и дается полный список всех наблюдений, их имена и номера кластеров, в которые входят указанные наблюдения (рисунок 22).


Рисунок 22 – Таблица принадлежности наблюдений кластерам
Создадим двухмерную диаграмму рассеивания (рисунок 23), выбрав по оси Х значения коэффициента сменности оборудования, по оси Y – производительность труда.



Рисунок 23 – Двухмерная диаграмма рассеивания


Вывод
В результате выполнения лабораторной работы были изучены два метода анализа данных – компонентный и кластерный. Рассмотрены две области – рынок автомобилей и деятельность предприятия. Выделены главные компоненты, выявлены наиболее характерные для них признаки, построены диаграммы рассеивания показателей, дендограммы методом Варда.


Скачать файл (835.3 kb.)

Поиск по сайту:  

© gendocs.ru
При копировании укажите ссылку.
обратиться к администрации
Рейтинг@Mail.ru