Logo GenDocs.ru

Поиск по сайту:  

Загрузка...

Системы Data Mining - файл Документ Microsoft Word.doc


Системы Data Mining
скачать (502.9 kb.)

Доступные файлы (3):

Документ Microsoft Word.doc27kb.26.04.2007 02:03скачать
Презентация Microsoft PowerPoint.ppt343kb.26.04.2007 02:02скачать
РЕФЕРАТ.doc376kb.28.05.2009 19:54скачать

содержание
Загрузка...

Документ Microsoft Word.doc

Реклама MarketGid:
Загрузка...
1ый слайд


Data Mining является мультидисциплинарной областью, возникшей и развивающейся на базе достижений прикладной статистики, распознавания образов, методов искусственного интеллекта, теории баз данных и др.

Data Mining — это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.


Статистика

Более, чем Data Mining, базируется на теории.

Более сосредотачивается на проверке гипотез.


Машинное обучение

Более эвристично.

Концентрируется на улучшении работы агентов обучения.


Data Mining.

Интеграция теории и эвристик.

Сконцентрирована на едином процессе анализа данных, включает очистку данных, обучение, интеграцию и визуализацию результатов.


Основная особенность Data Mining - это сочетание широкого математического инструментария (от классического статистического анализа до новых кибернетических методов) и последних достижений в сфере информационных технологий. В технологии Data Mining гармонично объединились строго формализованные методы и методы неформального анализа, т.е. количественный и качественный анализ данных.


К методам и алгоритмам Data Mining относятся следующие: искусственные нейронные сети, деревья решений, символьные правила, методы ближайшего соседа и k-ближайшего соседа, метод опорных векторов, байесовские сети, линейная регрессия, корреляционно-регрессионный анализ; иерархические методы кластерного анализа, неиерархические методы кластерного анализа, в том числе алгоритмы k-средних и k-медианы; методы поиска ассоциативных правил, в том числе алгоритм Apriori; метод ограниченного перебора, эволюционное программирование и генетические алгоритмы, разнообразные методы визуализации данных и множество других методов.

2ой слайд


Важное положение Data Mining — нетривиальность разыскиваемых шаблонов. Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные регулярности в данных, составляющие так называемые скрытые знания. К обществу пришло понимание, что сырые данные содержат глубинный пласт знаний, при грамотной раскопке которого могут быть обнаружены настоящие самородки


Классификация стадий Data Mining


Data Mining может состоять из двух [8] или трех стадий [9]:


Стадия 1. Выявление закономерностей (свободный поиск).


Стадия 2. Использование выявленных закономерностей для предсказания неизвестных значений (прогностическое моделирование).


В дополнение к этим стадиям иногда вводят стадию валидации [10], следующую за стадией свободного поиска. Цель валидации - проверка достоверности найденных закономерностей. Однако, мы будем считать валидацию частью первой стадии, поскольку в реализации многих методов, в частности, нейронных сетей и деревьев решений, предусмотрено деление общего множества данных на обучающее и проверочное, и последнее позволяет проверять достоверность полученных результатов.


Стадия 3. Анализ исключений - стадия предназначена для выявления и объяснения аномалий, найденных в закономерностях.


Скачать файл (502.9 kb.)

Поиск по сайту:  

© gendocs.ru
При копировании укажите ссылку.
обратиться к администрации