Logo GenDocs.ru

Поиск по сайту:  

Загрузка...

Доклад - Методы классификации - файл 1.doc


Доклад - Методы классификации
скачать (160.5 kb.)

Доступные файлы (1):

1.doc161kb.19.11.2011 23:25скачать

содержание

1.doc

Районирование – это мощный прием систематизации информации. Сущность районирования как метода исследования состоит в территориальной дифференциации и последующей интеграции компонентов природы, населения и хозяйства в целостные территориальные сочетания, комплексы.

Экономический район – территориально-целостная часть народного хозяйства страны, обладающая следующими признаками: специализацией (специализация данного района на определенных производствах и услугах в какой-то мере соответствует его географическому положению, природным, экономическим и социальным условиям и основана на рациональном разделении труда с другими районами); комплексностью, понимаемой в широком смысле, как взаимосвязанность важнейших элементов экономической и территориальной структур района; управляемостью, т. е. наличием определенных структур – отраслевой и территориальной, что позволяет рассматривать район как единицу (ячейку) управления (Алаев Э. Б. Социально-экономическая география. Понятийно-терминологический словарь. М., Мысль, 1983).

^ Типы и способы районирования

Существуют два подхода к выделению районов: таксономический, и функциональный (Шувалов В. Е. Некоторые подходы к систематизации типов и способов районирования. // Проблемы территориальной организации производства и расселения в урбанизированных районах. – Свердловск, 1988. – С.13-21.). И поэтому можно выделить таксономическое и функциональное районирование.

При таксономическом районировании устанавливается сходство и различие изучаемых объектов по какому-либо одному или нескольким признакам (свойствам). С учетом этих признаков строится классификация, ее результаты переносятся на карту. Таксономическое районирование аналогично процедуре классификации. Выделяемые таким образом районы гомогенны, однородны.

Таксономическое районирование можно осуществить двумя способами: объединением и делением. Первый из способов в таксономическом районировании часто называют районированием “снизу”, а второй - районированием “сверху”. При районировании “снизу” сходные объекты интегрируются, в результате чего выделяются районы более высокого ранга. При районировании ‘’сверху” производят обратную процедуру - расчленения территории на районы низшего ранга.

Важной операцией при таксономическом районировании следует считать выбор способа объединения районов по признаку их смежности. Исходя из него, применяют два вида районирования: индивидуальное и типологическое. При индивидуальном районировании в районы объединяются смежные местности, при типологическом - выделение районов производится на основе классификации типов местности, соединение в один тип однородных территорий, где бы они не находились.

Специфической проблемой таксономического районирования является выбор единиц районирования. Она решается путем введения в теорию районирования понятия “операционная территориальная единица” (ОТЕ). ОТЕ входят в процедуру районирования как условные неделимые элементарные источники информации. В качестве ОТЕ могут выступать как точечные и площадные объекты, так и целостные территориальные системы. Выбор того или иного типа ОТЕ зависит от конкретных задач и возможностей исследования.

^ Для группировки ОТЕ в районы используют разнообразные количественные методы.

Для деления исходных территориальных единиц, т.е. при таксономическом районировании “сверху” также применяют многочисленные математические методы. Особенность этого способа районирования состоит еще в том, что отчетливо выявить на территории типы районов почти невозможно. Поэтому на первом этапе районирования определяют так называемое “ядро типичности” районов, а затем и сами районы, “подстраивая” к ядрам их периферийные части. “Ядра типичности” целесообразно распознавать при переборе ОТЕ, масштаб которых крупнее масштаба выделяемых районов. Для этого необходимо установить количественные пределы классификации признаков как для "ядер типичности", так и для самих типов районов. Выделенные в результате районы будут обладать признаками типологических районов, однако им присущи и некоторые свойства индивидуальных районов, т.к. процедура присоединения периферии района к его ядру есть действие индивидуального районирования. Поэтому такие районы можно назвать смешанными.

Принципы функционального районирования разработаны в меньшей степени, что связано со сложностью и более поздней разработкой основ этого типа районирования. Основное внимание при выделении районов уделяется связям, взаимодействию элементов в районе и районов между собой.

В результате функционального районирования выделяемые районы как правило неоднородны, обладают линейно-узловой территориальной структурой, их часто называют узловыми.

Функциональным районам присуще основные системные качества и свойства: целостность, структурность, иерархичность, единство организации.

Функциональное районирование может производиться или объединени

ем ОТЕ, или делением территории на районы, т.е. "снизу" или "сверху". При районировании "снизу" определяют связи между ОТЕ, направления тяготения одних ОТЕ к другим, по которым периферийные ОТЕ присоединяются к "узловым". Представляется важным, что объединять в функциональные районы можно как смежные, так и удаленные друг от друга территории. Последние должны быть связаны между собой трассами взаимодействия разобщенных частей функционального района.

Функциональное районирование "сверху" можно производить методом разграничения сфер влияния узловых центров.

По способу решения задачи районирования все основы методы можно разделить на 3 группы:

1. автоматические - выделение районов производится в соответствии с математической моделью районирования и в автоматическом режиме компьютерных расчетов; совокупность операций подобного выделения районов составляет основу, так называемого автоматического районирования.

  1. Экспертные алгоритмы - районы выделяются в ходе коллективной экспертной оценки, составляющая основу экспертного районирования. Использование этих методов наиболее эффективно в тех областях научного исследования, где оценка процессов или явлений не поддается непосредственному измерению.

  2. Эвристические - определение районов в ходе ситуационного индивидуально - экспертного решения задач районирования.


^ Методы количественных характеристик.

Методы классификации.

Среди этих методов можно выделить 3 группы (А.М. Трофимов, В.А. Рубцов. Районирование. Математика. ЭВМ. – Казань, 1992.): статистические методы; методы теории распознавания образов; методы теории графов.

Ко второй группе относятся методы кластерного анализа.

Кластерный анализ – это многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы (кластеры).

Первые работа, упоминающие кластерный анализ, появились давно, но большая часть литературы по кластерному анализу была написана в течении последних 2-3 десятилетий. Причины повышенного интереса:

  1. появление высокоскоростных компьютеров;

  2. важное (фундаментальное) значение классификации как научного метода.

Все исследования, использующие кластерный анализ, включают 5 основных шагов:

  1. Отбор выборки для кластеризации.

  2. Определение признаков, по которым будут оцениваться объекты в выборке.

  3. Вычисление значений той или иной меры сходства между объектами.

  4. Применение кластерного анализа для создания групп сходных объектов.

  5. Проверка достоверности результатов кластерного решения.

Меры сходства делятся на 4 группы:

    1. Коэффициенты корреляции.

    2. Меры расстояния.

    3. Коэффициенты ассоциативности.

    4. Вероятностные коэффициенты сходства.

Меры расстояния являются самыми распространенными мерами сходства, при этом подходе к сходству объекты представляются точками координатного пространства, сходство и различие между точками находятся в соответствии с расстояниями между ними.

Для расчета расстояний будем использовать формулу:

= , где х,у – объекты, к – количество признаков.

Основной недостаток этой меры сходства в том, что оценка сходства сильно зависит от размерности данных. Для устранения этого недостатка часто используют процедуру нормировки данных.

Мы будем рассматривать методы кластерного анализа (3 шт.). Основное и единственное отличие между ними – выбор расстояния между объектами.

Используя любой из этих методов, будем полагать, что наши объекты (районы) N – штук; N = 22 располагаются как точки в К-мерном пространстве. Решается задача объединить эти точки (объекты) в группы (кластеры) таким образом, чтобы это отражало характер их расположения в пространстве.
^ 1.Метод одиночной связи (метод ближайшего соседа).

Две группы точек объединяются, если в этих группах найдётся хотя бы две точки (по одной в каждой группе),расстояние между которыми достаточно мало.




Метод приводит к образованию кластеров сложной и вытянутой формы. В этом методе преимущественно увеличивается старые кластеры, нежели возникают новые.
2. Метод полной связи (метод дальнего соседа).

Две группы точек объединяются, если в этих группах все пары точек из разных групп. Лежат достаточно близко.

За расстояние между двумя кластерами выбирается максимальное расстояние между объектами, входящие в разные кластеры.

^ 3. Метод средней связи ( метод средних).

Две группы точек объединяются, если среднее расстояние между парами точек из разных групп достаточно мало.

Возникновение новых и увеличение старых кластеров примерно одинаково возможно.

Вычислять среднее расстояние можно:

Вычисляется середина для каждого кластера, рассматриваются расстояния между ними и выбирается среди них минимальное.

Придерживаясь Евклидова расстояния, на плоскости покажем как будет работать каждый из методов на системе 4 точек, объединение будем проводить до образования одного кластера.

Пример


А(1,5), В(3,4), С(1,1), D(6,4)

= , где х,у – объекты, к – количество признаков.


Матрица расстояний

A+B


    1. Метод одиночной связи.

A+B+ D
A+B + D + C

    1. Метод полной связи.


A+B + C


A+B + C + D

    1. Метод средней связи.

Рассмотрим случай, когда за расстояние между кластерами берется расстояние, рассчитанное по формуле , где Rij –расстояние между I и j кластерами, n – количество расстояний.

A+B + C
A+B + C +D

Рассмотрим случай 2 (реализован в программе).

Находим середину нового кластера А+В:



За расстояние берем расстояние между серединками кластеров.

A+B +C



При программировании по любому из этих методов, необходимо:

1) Составить матрицу взаимных расстояний (матрицу Rnxn);

2) Выбрать минимальное расстояние (min);

3) Произвести объединение;

4) Перейти к пункту 1, т.е получить матрицу R n-1 x n-1, обращаю внимание за расстояние между кластерами нужно брать то расстояние, которое мы определили для каждого метода. Целесообразно процесс классификации проводить до образования одного кластера.

Теперь мы должны рассмотреть два важных вопроса:

  1. процедуру подготовки данных (имеется ввиду процедура преобразования исходных данных, процедура нормировки, с целью устранения недостатков выбранной меры сходства).

  2. Критерии определения числа кластеров в данных (останова процесса кластеризации).

1.Ситуация относительно нормировки не совсем ясна. Пользователи, имеющие данные с существенно различными измерениями, без сомнения заходят стандартизировать их, особенно если применяется такая мера сходства как евклидово расстояние. Решение о проведение нормировки должно приниматься с учетом специфики решаемой задачи, при этом нужно иметь в виду, что результаты могут различаться в зависимости от принятого решения.

Можно использовать следующие способы нормировки данных: (Трофимов А.М., Заботин Я.И., Панасюк М.В., Рубцов В.А. Количественные методы районирования и классификации. - Казань, 1985)

а) Приведение всех значений признаков в пределы величин [ 0, 1] путем деления каждого из значений признаков на максимальную величину;

б) преобразование по формуле , где – число объектов, -значение – го признака, – го объекта.

Хорошо работает, если природа всех признаков одинакова.

в) преобразование по формуле ,

г) преобразование по формуле ,

- усредненное значение j-го признака i – го объекта.

- среднеквадратичное отклонение j – го признака, позволяет переходить к безразмерным величинам.

Кроме того, это преобразование уравнивает масштабы и диапазоны изменение векторов. В наших программах реализовано это преобразование.

2. Процесс кластеризации должен останавливаться, если объекты, которые должны объединяться на данном этапе признаются нами значительно отличающимися друг от друга. Часто, для того чтобы понять, что мы объединим сильно различные кластеры, нам необходимо выполнить это объединение и сравнить значения некоторого критерия до и после объединения.

Удобно выполнять классификацию (если рассматриваются иерархические методы) до конца, т.е. до объединения всех объектов в один кластер, а затем рассматривать как изменялся критерий на всех этапах. Исходя из анализа изменения критерия оценить каждое объединение.

1. Отношение min расстояния на данном этапе объединения к среднему расстоянию между объектами в исходной матрице расстояний.

Это простой и естественный критерий, показывающий насколько велико отличие между объединяемыми кластерами, среднее расстояние между исходными объектами взято как мера первоначального различия между объектами. Оценивая изменения этого параметра, надо учитывать способ объединения.

2. Отношение суммы расстояний между объектами после объединения к сумме расстояний исходной матрицы расстояний. Этот показатель не очень хорош, поскольку его величина сильно зависит от количества объектов, эта количественная зависимость может гасить изменение параметра, связанное с различием объектов. Более часто рассматривается отношение средних расстояний.

3. Наиболее широко используемым критерием является отношение межгрупповой дисперсии на каждом этапе объединения к дисперсии исходной матрицы объектов.

Дисперсия понимается как сумма квадратов расстояний до середины деленная на число объектов. Естественно считать, что при объединении различных объектов дисперсия должна заметно уменьшиться. Однако уменьшение дисперсии произойдет и в том случае, если объединяются объекты, расположенные близко друг к другу, но далеко от центра. Еще плохо и то, что если групп немного, то скачки заметнее. Тогда, мы зафиксируем скачок дисперсии не связанный с объединением различных результатов. Так же часто рассматривается сумма дисперсии внутри всех групп. Эта дисперсия от 0 будет расти до дисперсии всей матрицы объектов. Причем будет резко возрастать, если объединяются различные объекты. Однако слабость в том, что пока групп много и значит в этих группах мало объектов возрастание более выражено.
Исходные данные для работы по классификации.

Метеорологический ежемесячник.

  • Отобрать 30 станции.

  • Отобрать 5 показателей по 30 станциям.

Т.1 Температура воздуха

а) Средняя температура воздуха

Т.3 Облачность, видимость

а) облачность – количество баллы

Т.4 Скорость ветра

а) Средняя скорость ветра

Т.6 Атмосферное давление.

а) Среднее.

Т.7 Осадки.

а) Количество осадков, мм, сумма.


Скачать файл (160.5 kb.)

Поиск по сайту:  

© gendocs.ru
При копировании укажите ссылку.
обратиться к администрации