Logo GenDocs.ru


Поиск по сайту:  


Лекции - Информационные системы - файл 1.docx


Лекции - Информационные системы
скачать (96.3 kb.)

Доступные файлы (1):

1.docx97kb.04.12.2011 00:17скачать

содержание

1.docx

Реклама MarketGid:

  1. Основные понятия информационных систем. Информация. Информационные ресурсы. Информация документирования. Информационные процессы.

Информация (от лат. informatio — осведомление, разъяснение, изложение, от лат. informare — придавать форму) — в широком смысле абстрактное понятие, имеющее множество значений, в зависимости от контекста. В узком смысле этого слова — сведения (сообщения, данные) независимо от формы их представления[1]. Сведения об объектах живой или неживой природы, их свойствах и взаимном влиянии друг на друга.
В настоящее время не существует единого определения термина информация. С точки зрения различных областей знания, данное понятие описывается своим специфическим набором признаков.
Информация (в общем смысле) — это все, что может воспринять человек.

Документ — материальный объект, содержащий информацию в зафиксированном виде и специально предназначенный для её передачи во времени и пространстве. [3].

«Закрепленная информация» — это и есть данные. Поэтому:

Документ — это материальный объект, содержащий данные, отображающие некоторую информацию.

Информационные ресурсы - в широком смысле - совокупность данных, организованных для эффективного получения достоверной информации.

Информационные ресурсы - по законодательству РФ - отдельные документы и отдельные массивы документов, документы и массивы документов в информационных системах: библиотеках, архивах, фондах, банках данных, других видах информационных систем.

документирование – это запись информации на различных носителях по установленным правилам. При этом с термином "документирование" непосредственно связано понятие "документ", определение которого было сначала закреплено в Федеральном законе от 20 февраля 1995 г. № 24-ФЗ "Об информации, информатизации и защите информации", а потом уже и в ГОСТе Р 51141-98.
Документ является результатом документирования и определяется как зафиксированная на материальном носителе информация с реквизитами, позволяющими ее идентифицировать. Носителем при этом может выступать любой материальный объект, используемый для закрепления и хранения на нем речевой, звуковой или изобразительной информации, в том числе в преобразованном виде. В настоящее время в качестве носителя используется бумага, наряду с которой также широко применяются магнитные носители, позволяющие использовать для документирования компьютерную технику.
При документировании необходимо помнить, что данный процесс записи информации на бумаге или ином носителе является строго регламентированным, что в свою очередь, обеспечивает юридическую силу документа. Юридическая сила документа – это свойство официального документа, сообщаемое ему действующим законодательством, компетенцией издавшего его органа и установленным порядком оформления.
В результате исполнения информационных процессов осуществляются информационные права и свободы, выполняются обязанности соответствующими структурами производить и вводить в обращение информацию, затрагивающую права и интересы граждан, а также решаются вопросы защиты личности, общества, государства от ложной информации и дезинформации, защиты информации и информационных ресурсов ограниченного доступа от несанкционированного доступа.[2]
С точки зрения информационного права, при выполнении информационных процессов возникают общественные отношения, подлежащие правовому регулированию в информационной сфере Примерами информационного процесса являются:


  1. ^ Понятие информационной системы

Термин информационная система (ИС) используется как в широком, так и в узком смысле.



В широком смысле информационная система есть совокупность технического, программного и организационного обеспечения, а также персонала, предназначенная для того, чтобы своевременно обеспечивать надлежащих людей надлежащей информацией[1].

Федеральный закон Российской Федерации от 27 июля 2006 г. N 149-ФЗ «Об информации, информационных технологиях и о защите информации» даёт следующее определение: «информационная система — совокупность содержащейся в базах данных информации и обеспечивающих ее обработку информационных технологий и технических средств»[1].

По мнению одних авторов, ИС в широком смысле включает в себя персонал, её эксплуатирующий, по мнению других — нет.

В узком смысле информационной системой называют только подмножество компонентов ИС в широком смысле, включающее базы данных, СУБД и специализированные прикладные программы.

В любом случае основной задачей ИС является удовлетворение конкретных информационных потребностей в рамках конкретной предметной области. Современные ИС де-факто немыслимы без использования баз данных и СУБД, поэтому термин «информационная система» на практике сливается по смыслу с термином «система баз данных».

Информационная система - взаимосвязанная совокупность средств, методов и персонала, используемых для хранения, обработки и выдачи информации. Информационные системы бывают разного назначения и масштаба. Также информационные системы отличаются по степени охвата сфер деятельности предприятия (учитывают ли они только бухгалтерию или также и склад, финансы, производство и т.д.). Однако все информационные системы обладают рядом свойств, которые являются для них общими:

ИС предназначены для сбора, хранения и обработки информации. Таким образом, в основе любой информационной системы лежат средства хранения и доступа к данным;

ИС предназначены для конечного пользователя, не являющегося специалистом в области вычислительной техники. Из этого следует, что ИС должны включать в себя клиентские приложения, обеспечивающие интуитивно понятный интерфейс.

  1. ^ Как изменялся подход к использованию информационных систем.

    Период

    Концепция использования информации

    Вид ИС

    Цель использования

    1950-1960

    Бумажный поток расчетных документов

    ИС обработки расчетных документов на электронных бухгалтерских машинах.

    Повышение скорости обработки документа, упрощение процедуры расчета

    1960-1970

    Основная помощь в подготовке отчетов

    Управление ИС для произв-й информации

    Ускорение процессов в подготовке отчетностей

    1970-1980

    Управленческий контроль реализации и продаж

    Системы поддержки принятия решений, системы для высш. зв. упр.

    Выборка наиболее рационального решения

    1980-наши дни

    Информационно-стратегический ресурс, обеспечивающий конкурентные преимущества.

    Стратегические ИС

    Выживание и процветание фирмы.

  2. ^ Структура информационной системы. Информационное обеспечение.

Типы обеспечивающих подсистем

Структуру информационной системы составляет совокупность отдельных ее частей, называемых подсистемами.

Подсистема – это часть системы, выделенная по какому-либо признаку.

Общую структуру информационной системы можно рассматривать как совокупность подсистем независимо от сферы применения. В этом случае говорят о структурном признаке классификации, а подсистемы называют обеспечивающими. Таким образом, структура любой информационной системы может быть представлена совокупностью обеспечивающих подсистем (рис. 3.4).

Рис. 3.4. Структура информационной системы как совокупность обеспечивающих подсистем

Среди обеспечивающих подсистем обычно выделяют информационное, техническое, математическое, программное, организационное и правовое обеспечение.

^ Информационное обеспечение

Назначение подсистемы информационного обеспечения состоит в своевременном формировании и выдаче достоверной информации для принятия управленческих решений.

^ Информационное обеспечение – совокупность единой системы классификации и кодирования информации, унифицированных систем документации, схем информационных потоков, циркулирующих в организации, а также методология построения баз данных.

Примечание. Системы классификации и кодирования информации рассмотрены в гл. 2.

Унифицированные системы документации создаются на государственном, республиканском, отраслевом и региональном уровнях. Главная цель – это обеспечение сопоставимости показателей различных сфер общественного производства. Разработаны стандарты, где устанавливаются требования:

к унифицированным системам документации;

к унифицированным формам документов различных уровней управления;

к составу и структуре реквизитов и показателей;

к порядку внедрения, ведения и регистрации унифицированных форм документов.

Однако, несмотря на существование унифицированной системы документации, при обследовании большинства организаций постоянно выявляется целый комплекс типичных недостатков:

чрезвычайно большой объем документов для ручной обработки;

одни и те же показатели часто дублируются в разных документах;

работа с большим количеством документов отвлекает специалистов от решения непосредственных задач;

имеются показатели, которые создаются, но не используются, и др.

Поэтому устранение указанных недостатков является одной из задач, стоящих при создании информационного обеспечения.



Для создания информационного обеспечения необходимо:

ясное понимание целей, задач, функций всей системы управления организацией;

выявление движения информации от момента возникновения и до ее использования на различных уровнях управления, представленной для анализа в виде схем информационных потоков;

совершенствование системы документооборота;

наличие и использование системы классификации и кодирования;

владение методологией создания концептуальных информационно-логических моделей, отражающих взаимосвязь информации;

создание массивов информации на машинных носителях, что требует наличия современного технического обеспечения.

  1. ^ Что такое схемы информационных потоков, что они позволяют выявить?

Схемы информационных потоков отражают маршруты движения информации и ее объемы, места возникновения первичной информации и использования результатной информации. За счет анализа структуры подобных схем можно выработать меры по совершенствованию всей системы управления.

Пример 3.10. В качестве примера простейшей схемы потоков данных можно привести схему, где отражены все этапы прохождения служебной записки или записи в базе данных о приеме на работу сотрудника – от момента ее создания до выхода приказа о его зачислении на работу.

Построение схем информационных потоков, позволяющих выявить объемы информации и провести ее детальный анализ, обеспечивает:

исключение дублирующей и неиспользуемой информации;

классификацию и рациональное представление информации.
При этом подробно должны рассматриваться вопросы взаимосвязи движения информации по уровням управления (см. рис. 3.2). Следует выявить, какие показатели необходимы для принятия управленческих решений, а какие нет. К каждому исполнителю должна поступать только та информация, которая используется.

Методология построения баз данных базируется на теоретических основах их проектирования. Для понимания концепции методологии приведем основные ее идеи в виде двух последовательно реализуемых на практике этапов:

1-й этап – обследование всех функциональных подразделений фирмы с целью:

понять специфику и структуру ее деятельности;

построить схему информационных потоков;

проанализировать существующую систему документооборота;

определить информационные объекты и соответствующий состав реквизитов (параметров, характеристик), описывающих их свойства и назначение.

2-й этап – построение концептуальной информационно-логической модели данных для обследованной на 1-м этапе сферы деятельности. В этой модели должны быть установлены и оптимизированы все связи между объектами и их реквизитами. Информационно-логическая модель является фундаментом, на котором будет создана база данных.

Примечание. С теорией и технологией построения информационно-логической модели можно познакомиться в гл. 15.

  1. ^ Техническое и информационное обеспечение ис. Что необходимо для создания информационного обеспечения?

Информационное обеспечение.



Назначение подсистемы информационного обеспечения состоит в своевременном формировании и выдаче достоверной информации для принятия управленческих решений.

^ Информационное обеспечение – совокупность единой системы классификации и кодирования информации, унифицированных систем документации, схем информационных потоков, циркулирующих в организации, а также методология построения баз данных.

^ Для создания информационного обеспечения необходимо:

ясное понимание целей, задач, функций всей системы управления организацией;

выявление движения информации от момента возникновения и до ее использования на различных уровнях управления, представленной для анализа в виде схем информационных потоков;

совершенствование системы документооборота;

наличие и использование системы классификации и кодирования;

владение методологией создания концептуальных информационно-логических моделей, отражающих взаимосвязь информации;

создание массивов информации на машинных носителях, что требует наличия современного технического обеспечения.

^ Техническое обеспечение

Техническое обеспечение – комплекс технических средств, предназначенных для работы информационной системы, а также соответствующая документация на эти средства и технологические процессы.

^ Комплекс технических средств составляют:

компьютеры любых моделей;

устройства сбора, накопления, обработки, передачи и вывода информации;

устройства передачи данных и линий связи;

оргтехника и устройства автоматического съема информации;

эксплуатационные материалы и др.

Документацией оформляются предварительный выбор технических средств, организация их эксплуатации, технологический процесс обработки данных, технологическое оснащение.

^ Документацию можно условно разделить на три группы:

общесистемную, включающую государственные и отраслевые стандарты по техническому обеспечению;

специализированную, содержащую комплекс методик по всем этапам разработки технического обеспечения;

нормативно-справочную, используемую при выполнении расчетов по техническому обеспечению.

^ К настоящему времени сложились две основные формы организации технического обеспечения (формы использования технических средств): централизованная и частично или полностью децентрализованная.

^ Централизованное техническое обеспечение базируется на использовании в информационной системе больших ЭВМ и вычислительных центров.

Децентрализация технических средств предполагает реализацию функциональных подсистем на персональных компьютерах непосредственно на рабочих местах.

^ Перспективным подходом следует считать, по-видимому, частично децентрализованный подход – организацию технического обеспечения на базе распределенных сетей, состоящих из персональных компьютеров и большой ЭВМ для хранения баз данных, общих для любых функциональных подсистем.

  1. 

  2. Математическое и программное обеспечение ис. Что относится к математическому обеспечению?

Математическое и программное обеспечение – совокупность математических методов, моделей, алгоритмов и программ для реализации целей и задач информационной системы, а также нормального функционирования комплекса технических средств.

^ К средствам математического обеспечения относятся:

средства моделирования процессов управления;

типовые задачи управления;

методы математического программирования, математической статистики, теории массового обслуживания и др.

^ В состав программного обеспечения входят общесистемные и специальные программные продукты, а также техническая документация.

К общесистемному программному обеспечению относятся комплексы программ, ориентированных на пользователей и предназначенных для решения типовых задач обработки информации. Они служат для расширения функциональных возможностей компьютеров, контроля и управления процессом обработки данных.

^ Специальное программное обеспечение представляет собой совокупность программ, разработанных при создании конкретной информационной системы. В его состав входят пакеты прикладных программ (ППП), реализующие разработанные модели разной степени адекватности, отражающие функционирование реального объекта.

^ Техническая документация на разработку программных средств должна содержать описание задач, задание на алгоритмизацию, экономико-математическую модель задачи, контрольные примеры.

  1. ^ Организационное и правовое обеспечение ис. В результате чего создается программное обеспечение?

Организационное обеспечение

Организационное обеспечение – совокупность методов и средств, регламентирующих взаимодействие работников с техническими средствами и между собой в процессе разработки и эксплуатации информационной системы.
^ Организационное обеспечение реализует следующие функции:

анализ существующей системы управления организацией, где будет использоваться ИС, и выявление задач, подлежащих автоматизации;

подготовку задач к решению на компьютере, включая техническое задание на проектирование ИС и технико-экономическое обоснование ее эффективности;

разработку управленческих решений по составу и структуре организации, методологии решения задач, направленных на повышение эффективности системы управления.

Организационное обеспечение создается по результатам предпроектного обследования на 1-м этапе построения баз данных, с целями которого вы познакомились при рассмотрении информационного обеспечения.

^ Правовое обеспечение

Правовое обеспечение – совокупность правовых норм, определяющих создание, юридический статус и функционирование информационных систем, регламентирующих порядок получения, преобразования и использования информации.

^ Главной целью правового обеспечения является укрепление законности.

В состав правового обеспечения входят законы, указы, постановления государственных органов власти, приказы, инструкции и другие нормативные документы министерств, ведомств, организаций, местных органов власти. В правовом обеспечении можно выделить общую часть, регулирующую функционирование любой информационной системы, и локальную часть, регулирующую функционирование конкретной системы.

^ Правовое обеспечение этапов разработки информационной системы включает нормативные акты, связанные с договорными отношениями разработчика и заказчика и правовым регулированием отклонений от договора.
^ Правовое обеспечение этапов функционирования информационной системы включает:

статус информационной системы;

права, обязанности и ответственность персонала;

правовые положения отдельных видов процесса управления;

порядок создания и использования информации и др.
^ В результате чего создается программное обеспечение.

К общесистемному программному обеспечению относятся комплексы программ, ориентированных на пользователей и предназначенных для решения типовых задач обработки информации. Они служат для расширения функциональных возможностей компьютеров, контроля и управления процессом обработки данных.

Специальное программное обеспечение представляет собой совокупность программ, разработанных при создании конкретной информационной системы. В его состав входят пакеты прикладных программ (ППП), реализующие разработанные модели разной степени адекватности, отражающие функционирование реального объекта.

Техническая документация на разработку программных средств должна содержать описание задач, задание на алгоритмизацию, экономико-математическую модель задачи, контрольные примеры.

  1. ^ Документальные системы. Основная функция документальной ипс. Информационный поиск.

Документальные информационные системы - единое хранилище документов с инструментарием поиска и выдачи необходимых пользователю документов.

Поисковый характер документальных информационных систем исторически определил еще одно их название — информационно-поисковые системы (ИПС), хотя этот термин не совсем полно отражает специфику документальных информационных систем.

^ Основная функция документальных систем:

  1. Информационное обеспечение потребителей на основе выдачи ответов на их запросы.

  2. Осуществление выдачи системой требуемых данных осуществляющихся с помощью главной операции документальной системы – проведением информационного поиска (документального)

^ Информационный поиск – процедура поиска ответов на заданные вопросы (в документах). Информационный поиск в системе проводиться на основе поступившего от потребителя запроса на поиск необходимой ему информации.

  1. ^ Информационная потребность. Информационный запрос. Пертинентность и релевантность.

Потребность человека в определенной информации в процессе его практической деятельности – информационная потребность.



Под действием получаемой информации , информационная потребность людей изменяется и транспортируется. В следствии этого её не возможно однозначно выразить и описать. Однако информационная потребность может быть в представлена в виде некоторых частных потребностей фиксированных во времени.

Такое частное значение информационной потребности потребителя в определенные моменты времени , выраженное на естественном языке , и представляет собой информационный запрос , с которым пользователь обращается к системе . Однако , запрос бывает не правильно сформулирован потребителем и не отображает истинной информационной потребности в момент обращения к системе (некорректная , неточная формулировка) При проведение информационного поиска в системе рассматривается только информационный запрос , в ответ на который выдаются те или иные документы. От сюда следует , что реакцию системы не обходимо рассматривать и по отношению к информационному запросу. Для выражения данных отношений в теории документальных систем введено два фундаментальных понятия :

  1. Пертинентность – соответствие смыслового содержания документа информационной потребности потребителя (документы пертинентные)

  2. Релевантность – соответствие содержание документа информационному запросу в том виде , в котором он сформулирован .

  1. Зачем нужна формализация представления основного смыслового содержания документа и запроса? Поисковый образ документа. Поисковое предписание. Критерий смыслового содержания.

Автоматизация процесса информационного поиска потребовало формализации основного смыслового содержания документа и информационного запроса (это задача)

^ Поисковый образ документа (ПОД).

Поисковое предписание (содержание запроса) (ПП)

Для записи ПП и ПОД применяются специальные языки которые называются информационно поисковые языки (ИПЯ). В процесс проведения информационного поиска в документальных системах определяется степень соответствие, содержание документов и запроса пользователя , путем сопоставления ПОД и ПП. А на основе такого сопоставления принимаются решения о выдаче документа (документ признается релевантным) или не выдача (документ признается не релевантным)

Решение о выдачи или невыдачи документа в ответах на запрос принимается на основе некоторого набора правил по которым для данной ДИПС (документально информационно поисковая система) определяется степень смысловой близости между ПОД и ПП. Такой набор правил получил название критерий смыслового соответствия ( КСС). КСС может задаваться явно или неявно. На самом деле КСС базируется не на ранее выведенном понятии релевантности , а на понятие формальной релевантности (соответствие содержания ПОД ПП-ю )

  1. ^ Общая функциональная структура документальной ипс.

Общая функциональная структура ДИПС.

С состав типичной документальной системы входит 4 подсистемы:

  1. Подсистема ввода и регистрации

  2. Подсистема обработки

  3. Подсистема хранения

  4. Подсистема поиска

Общая функциональная структура ДИПС.

1.Текстовые документы поступающие на вход в системы могут быть представлены как в бумажном так и в электронном виде. Подсистема ввода регистрации решает следующие основные задачи:

– создание электронных копий бумажных доказательств (сканирование с последующим распознаваний текста , ввод с клавиатуры)

– Обеспечение подключение каналов доставки электронных доказательств.



- Распознавание , а при необходимости и преобразование формата электронных доказательств

– Присвоение электронным доказательством уникальных идентификаторов (номеров) , а также введение таблицы синхронизации прежних или исходных имен доказательств.

Все поступающие документы без внесения изменений направляются под систему хранения для сохранения в базе доказательств.

База доказательств может представлять собой простую совокупность файлов , распределенных по каталогам жесткого диска.

Но такой тип представленной базы доказательств характеризуется двумя недостатками:

1. Неэффективное использование дискового пространства

2. Низкая скорость доступа при большом количестве файлов

Поэтому для хранения доказательств применяются средства сжатия и быстрого поиска информации. В этом случае подсистемы хранения представляет собой совокупность стандартных или специализированных средств архивации и СУБД , который обеспечивает возможность доступа к данным по предварительным идентификаторам

2.^ Основная задача подсистемы обработки – формирование для любого документа ПОД , в которых заноситься информация необходимая для дальнейшего поиска документа. ПОД сохраняется в индексе и затем используется. При поступление на вход системы запроса пользователя , запрос преобразуется в ПП. И полученное ПП передается в подсистему поиска. Задача и ПП является отыскание в индексе ПОД – в , удовлетворяющих полученному ПП с точки зрения критерия смыслового соответствия (КСС)

Идентификаторы релевантных документов подаются с выхода подсистем поиска на вход подсистем хранения который осуществляет выдачу пользователю самих релевантных доказательств.



  1. ^ Проблема формального представления смыслового содержания текста. Недостатки естественного языка

1)Недостатки естественного языка. Естественный язык (ЕЯ) является универсальной знаковой системой, которая служит для обмена информацией между людьми. Поскольку документы, которые поступают на вход документальную систему записаны на ЕЯ, возникает вопрос: «А нельзя ли использовать ЕЯ в качестве основы средства представления информации во время всего цикла функционирования документальной системы?» Ответ будет положительным, если речь идет о документальных системах, в которых соответствие между запросом и доказательством определяется человеком.

Однако, в современных документальных системах эти операции выполняются с помощью (выч. техн.) компьютера, что практически исключает применение ЕЯ в качестве основного средства представления информации. Это объясняется существенными недостатками ЕЯ с точки зрения машинной технологии обработки инф-ии.

^ Недосатки ЕЯ.

1)Многообразие средств передачи смысла.

Не смотря на то, что основным средством передачи смысла сообщения является лексика ЕЯ, в сообщениях на ЕЯ функцию передачи смысла выполняет ряд других элементов:

-контекст

-парадигматические отношения между словами

-текстуальные отношения между словами

-ссылки на слова, ранее упоминавшиеся в тексте сообщения.

^ 2) Семантическая неоднозначность

Сообщения записанные на ЕЯ могут быть семантически неоднозначны. Семантическая неоднозначность возникает в основном из-за: -синонимии

-многозначность слов ЕЯ

Синонимия представляет собой тождественность или близость по значению слов, выражающих одно и тоже понятие, которые отличаются одно от другого или оттенками значений или стилистической окраской или одновременно обоими признаками.

Синонимами ЕЯ могут выступать как отдельные слова, так и отдельные словосочетания.



Многозначность слов ЕЯ характеризует возможность неоднозначного понимания смысла отдельных сов ЕЯ.

^ Многозначность представлена 3-мя разновидностями.

1)Полисемия

2)Омонимия

1) Совпадение названий различных предметов, имеющих между собой какие-либо общие св-ва или признаки. Типичным общим св-ом, служащим базой полисемии следует отнести сходство предметов, их смежность (пространственную, временную), а также одинаковое функциональное назначение. Например, понятие команда (воинское подразделение, экипаж судна, спортивная команда).

2)Совпадение названий различных предметов, не имеющих между собой каких-либо общих св-в. Например, лук (оружие, растение), ключ(к дверному замку, родник). Омонимичные слова – слова, которые совпадают между собой как по написанию, так и по звучанию следует отличать от омографов - слова, обозначающие различные предметы, одинаковые по написанию, но разные по звучанию. Например, замок(дверной), замок(дворец). Т.к. документальные системы работают с сообщениями на ЕЯ, представленными в письменной форме в следствие чего фонетика языка не оказывает решающего влияния на смысл таких сообщений. Омографы могут быть приравнены к омонимичным словам.

3) Эллипсность. Во многих сообщениях на ЕЯ встречаются эллипсы - пропуски подразумеваемых слов. Эллипсность сообщений зачастую играет отрицательную роль при непосредственной работе с ними человека. Очевидно, что это тем более отрицательно скажется если сообщения на ЕЯ будет обрабатываться с помощью компьютера.

  1. ^ Информационно-поисковый язык.

Невозможность использования ЕЯ в качестве основного средства представления информации в документальных системах приводит к необходимости применения искусственных языковых средств.

ИПЯ называется специализированный искусственный язык, предназначенный для описания основного смыслового содержания, поступающих в систему сообщений с целью обеспечения возможности их последующего поиска доказательств.

^ ИПЯ создается на базе ЕЯ, однако, отличается от него:

-компактностью

-наличием четких грамматических правил

-отсутствием семантической неоднозначности
^ ИПЯ принято делить на два основных типа:

1)Классификационные языки

2)Дескрипторные языки

1) Разница между двумя языками заключена в процедуре построения предложений (фраз) языка. Для ряда языков в их лексический состав наряду со словами, выражающее простые понятия, также включены словосочетания и фразы, выражающее сложные понятия. Для записи смыслового содержания сообщений в таких ИПЯ используются только отдельные элементы из этого набора в том числе готовые сложные понятия. Фактическое построение сложных синтаксических конструкций заменяется выбором соответствующего сложного понятия из готового набора.

^ Пример: Политика. Внутренняя Федеральная

Политика. Внутренняя Региональная

Т.е. с помощью таких языков производится классификация сообщений, т.е. отнесение этих сообщений к классам обозначенных лексическими единицами (ЛЕ) ИПЯ. Языки получили название классификационные. Частным случаем классификационного языка является рубрикатор, л.е. которого явл название тематического рубрикатора.

2)Дискретный язык, в котором л.е. заранее не связаны ни с какими текстуальными отношениями. Сложные синтаксические конструкции создаются в дискретном языке путем объединения или координации л.е. во время процедуры представления смыслового 

содержания документа в системе. Готовых предложений и фраз нет. Отсутствует ограничение на составление сложных понятий.

Фактически из небольшого числа л.е. данные языки позволяют строить предложения, выражающие почти любой смысл.

^ Различаются дискретный язык с грамматикой и без грамматики.

С грамматикой характеризуется наличием жестких правил формирования синтаксических конструкций. Например, при использовании дискретного языка с позиционной грамматикой, в которой при описании действий записывается наименование субъекта на первом месте, а объекта на втором. Если: «Иванов владеет автомобилем», то будет «владеет Иванов автомобилем».

В дискретных языках без грамматики такие правила отсутствуют и порядок следования слов не играет роли. Пример может не менять порядок слов.

^ Различаются также дискретные языки с контролируемой и свободной лексикой.

Лексический состав первых строго ограничен и зафиксирован в словаре (тезаурус), в то время как на лексический состав вторых, никаких ограничений не накладывается и он может пополняться постоянно за счет включения новых лексических единиц.

^ ИПЯ делиться на дескрипторные → индексирование и классификационные →рубрицирование.

На сегодняшний день среди дискретных языков наибольшее распространение получили языки без грамматики и контроля по словарю – полнотекстовое индексифицирование.

^ В операции перевода могут выделятся два этапа:

  1. Анализ смыслового содержания текста с целью выделения сведений об известных системе объектов , их свойствах а также отношений между ними.

  2. Выражение этих сведений на ИПЯ то есть принятие решений о приписываемых данному сообщению на ИПЯ ПОД.

Этап анализа смыслового содержания текста связан с необходимостью использования лингвистических и экстралингвистических знаний. Лингвистические знания являются общими для первого ЕЯ. И на сегодняшний день являются достаточно хорошо формализованными , в то время как экстралингвистические сильно зависят от конкретно предметной области , а задача их формализация является одной из самых сложных. В этой связи в современных документальных системах этап анализа текста чаще всего сводиться к лингвистическому анализу , производимому с целью нормализации слов и словосочетаний. Под нормализацией слов понимается их приведение к канонической формы (Для существительного к именительному падежу , единственному числу) Под нормализацией словосочетаний понимается нормализация составляющих в данном словосочетании и записях в определенном последовательностях (Сначала основное слова , затем зависимые слова). Нормализацией слова и словосочетания обычно называются термины.

  1. ^ Система индексирования. Цель процесса индексирования.

Цель процесса индексирования в документальных системах такая же как и каталогизация в библиотеках:

Приписать любой единицы хранения некоторое множество идентификаторов , отражающих содержание документов. В обычных библиотеках в роли идентификатора содержание выступает соответствующую цифру , которые определяют предметную классификацию и место хранения.

С развитием автоматизированной обработки документов обычный процесс катализации превратился в процесс индексирования , цель которого приписывание некоторым элементам индификаторов , которые называются индексационные термины , ключевые слова , дескрипторы , понятия – они отражают содержание документа и управляют поиском , приводя к тем документам , термины которых , оказываются наиболее сходными с терминами запроса. Обычный процесс индексирования состоит из нескольких операций:

  1. Отбор индексированных терминов , используемых для описания содержимого документа.

  2. Приписывание терминам некоторого веса отражающего важность термина

  3. Отнесение любого термина к определенному типу.

  4. 

  5. Определение отношений между терминами , к которым относятся синонимические , и иерархические , ассоциативные отношения.



  1. Автоматическое индексирование

Все попытки выполнять индексирование автоматически относятся на текстах исходных документов или на определенных фрагментах текста (заголовки . реферат) Обычно выписываются слова , встречающиеся в любом документе и делаются определенным статистические подсчеты в основе которых часто лежит частота появления слова в документах , или во всем массиве документа , или распределение по всему массиву документов.

Далее отбрасываются обще употребительные слова , которые имеют высокую частоту , а оставшимся словам приписываются веса , в соответствие с ранее проведенными расчетами. Одним из наиболее распространенных способов перевода документов на внутренний язык системы (т.е построение ПОД) Являющиеся координатное индексирование – присвоение документов набора ключевых слов или кодов , определяющих его содержание.

Два способа индексирования:

  1. Свободное , когда непосредственно из текста документа извлекается ключевые слова без учета всех видоизменений этих форм и отношений между ними.

  2. Контролируемое , когда в ПОД включается только те слова , которые зафиксированные в информационно поисковом тезаурусе , где указаны их синонимические , морфологические , и ассоциативные отношения.

Тезаурус – специальный организованный нормативный словарь лексических единиц (ЛЕ) ИПЯ и ЕЯ.

ЛЕ ИПЯ является дескриптором. Дескриптор ставиться в однозначное соответствие к группе ключевых слов ЕЯ , отобранных из текста определенной предметной области. Например , в качестве дескриптора может быть выбрана любое ключевое слово или словосочетание или цифровой код .

Многозначному слову ЕЯ соответствует несколько дескрипторов , а нескольким синонимичным словам или выражениям соответствует один дескриптор.

Тезаурус учитывает семантические связи между словами: синонимия , антонимия , гиперонимы , гипонимы , ассоциации.

Синонимы – слова или словосочетания разные по написанию , но одинаковые по (в рассмотренной предметной области) по значению (ведьма - злая волшебница)

Антонимы - слова с противоположным значением (добрый – злой)

Гипонимы – термин , являющейся частным случаем другого более общего понятия.

Гипероним – термин , являющимся общим для ряда других частных понятий

Солдат – гипоним (военный)

Человек – гипероним (военный)

Гипероним (вкусно готовить) = гипероним (содержит дом в чистоте) = гипероним (умеет шить) = хорошая хозяйка.

  1. ^ Оценка качества документальной ипс.

Для автоматизации процесса информационного поиска используется формализация представления основного, смыслового содержания информационного запроса и документов в виду ПП и ПОД. Однако в ПП и ПОД отражается лишь основное смысловое содержание поступающих документов в сокращенном виде. Метод информационного поиска основанный на сопоставление ПП и ПОД не в состоянии полностью обеспечить отыскание всех документов , отвечающих информационному запросу. Это приводит к тому что часть доказательств отвечающих запросу (релевантные запросы) остается не выданные потребителю.

В то же время во множестве выданных потребителю документов , которые не отвечают запросу являются не релевантными т.е. практически в любой документной системе присущи два типа ошибок.

  1. 

  2. Первого рода (пропуск цели) невыдача потребителю релевантного его запросу документов.

  3. Ошибки второго рода (ложная тревога , шум) выдача потребителю нерелевантных документов несоответствующих запросу.

Наличие в реальной системе данных выше – обуславливает разбиение всего массива документов , по отношению к запросу на 2 подмассива.




ВЫДАННЫЕ

НЕВЫДАННЫЕ

РЕЛЕВАНТНЫЕ

А

C

НЕРЕЛЕВАНТНЫЕ

B

В



а – количество документов подмассива А.

b – количество документов подмассива B

c – количество документов подмассива C

d –количество документов подмассива D

Показатели эффективности документальных систем:

  1. Коэфициент полноты – характеризует долю выданных релевантных документов во всем массиве выданных релевантных документов.

P=aa+c∙100%

  1. Коэфициент точности – характеризует долю выданных релевантных документов во всем массиве выданных документов.

n=aa+b∙100%

  1. Коэффициент шума – характеризует долю выданных нерелевантных документов во всем массиве выданных документов.



e=aa+b∙100%; e=1-n

  1. Коэффициент осадка – доля выданных нерелевантных документов во всем массиве нерелевантных документов.

q=bb+d∙100%

  1. Коэффициент специфичности – характеризует не выданных документов не релевантных во всем массиве нерелевантных документов.

k=db+d∙100%;k=1-q

При оценке качества реальных систем наиболее часто используются коэффициенты полноты и точности.

Точность поиска и его полнота зависят не только от свойств поисковой системы, и от правильности построения запроса, но так же от субъективного представления пользователя о том, что такое нужная ему информация.

Однако при желании можно вычислить среднее значение полноты и точности конкретной системы, протестировав её на эталонной базе документов.

Очевидно, что хорошая поисковая система должна иметь как можно большие коэффициенты полноты и точности (→100%), т.е. чтобы находились все нужные документы и не выдавала ничего лишнего. Однако 100% качества поиска невозможно, т.к. на фиксированном уровне мощности поискового средства все попытки улучшить один из параметров приводят к ухудшению другого параметра.

  1. ^ Показатели эффективности документальной ипс.

В заключение общей характеристики документальных ИПС приведем основные показатели эффективности их функци¬онирования. Такими показателями являются полнота и точность информационного поиска.



Полнота информационного поиска R определяется отно¬шением числа найденных пертинентных документов А к обще¬му числу пертинентных документов С, имеющихся в системе или в исследуемой совокупности документов:

R=A/C.

Точность информационного поиска Р определяется отно¬шением числа найденных пертинентных документов А к обще¬му числу документов L, выданных на запрос пользователя:

P=A/L

Наличие среди отобранных на запрос пользователя нере¬левантных документов называется информационным шумом системы. Коэффициент информационного шума , соответ¬ственно, определяется отношением числа нерелевантных до¬кументов (L–A), выданных в ответе пользователю к общему числу документов L, выданных на запрос пользователя:

 =

В идеале полнота информационного поиска и точность ин¬формационного поиска должны приближаться к единице, хотя на практике их значения колеблются в пределах от 60 до 90%.


  1. ^ Какие основные показатели эффективности обычно используются на практике (не связанные с релевантностью и выдачей)?


На ряду с перечисленными показателями, основанных на сопряженности релевантности и выдачи …, целесообразно использовать и другие показатели, не связанных с релевантностью и выдачей:

  1. Быстродействие документальной системы; т.е. интервал ≠ между моментом формулирования запроса и получения ответа на запрос.

  2. Пропускная способность – оценивается количеством вводимых документов и количеством ответов во времени, при заданных коэффициентах полноты и точности.

  3. Производительность – оценивается количеством пользователей системы и частотой обращений с их стороны.

  4. Надежность работы – оценивается вероятностью того, что система будет выполнять свои функции при заданных условиях в течении определенного времени.

  5. Тип запросов обслуживаемых системой. Система Управления Базами(СУБД).



  1. ^ Фактографические системы. Что такое предметная область? Модели данных.

Предметная область. Моделирование БД.

Фактографические системы работают фактическими сведениями представленными виде специальным образом организованных совокупностей формальных записей данных.

Центральной функцией систем является СУБД. Любая ИС оперирует той или иной частью реального мира , которая называется предметная область.

Предметная область рассмотрения как некоторая совокупность реальных объектов (сущности) и связи между ними. Любой объект так же обладает определенным набор свойств (сущности . связей , атрибутов). Между сущностью может существовать связи разного рода (сотрудник ЮФУ – кафедра)

Предметная область и семантика предметной области.

Понятие предметная область является базисным понятием в теории БД. Возникает два понятие объект и предмет.

Объект – то что существует вне нас , не зависимо от нашего сознания , явление внешнего мира материальной действительности.

Объекты потенциально обладают огромным количеством свойств и находятся с потенциально бесконечном числе взаимосвязей.

Однако среди всего множества свойств и взаимосвязей между объектами имеет смысл выделять лишь существенно важные с точки зрения потребителя информации.



Предмет – объект , ставший носителем определенной совокупностей свойств и входящей в различные взаимоотношения , который представляет интерес для потребителя информации , то есть предмет – модель реального объекта. Один и тот же объект может восприниматься системами как разные предметы.

Совокупность объектов . информации которая интерес для пользователя образует объектная ядро предметной области.

Понятие предметная область соответствует точки зрения потребителя информации на объектное ядро при котором выделяются только те свойства объекта и взаимодействия между ними которые представляют практическую ценность и должны фиксироваться в БД. То есть предметная область представляет собой абстрактную картину реальной действительности , определенная часть которой фиксируется в качестве модели фрагмента действительности.

Предметная область ИС материализируется в форме хранимой в памяти ЭВМ структуры совокупности данных которые характеризуют состав объекта предметной области , их свойства и взаимосвязей. Такое отражение предметной области называется БД.

Концептуальное средство описания предметной области.

Так как объектное ядро произвольной предметной области потенциально содержит бесконечно число объектов которые находятся потенциально бесконечном множестве взаимосвязей , то прямой подход к описанию предметной области через описание всех объектов и взаимосвязей обречен на провал.

Альтернативой является подход к описанию предметной области , фиксирующий только то общее , что является низменным и характеризует предметную область в любой момент времени , иначе говоря , который отражает семантику предметной области.

  1. ^ Информационно-логическая модель данных.

Проектирование базы данных состоит в построении комплекса

взаимосвязанных моделей данных.

Важнейшим этапом проектирования базы данных является разработка

информационно-логической (инфологической) модели предметной области, не

ориентированной на СУБД. В инфологической модели средствами структур данных

в интегрированном виде отражают состав и структуру данных, а также

информационные потребности приложение (задач и запросов).

Информационно-логическая модель предметной области отражает предметную

область в виде совокупности информационных объектов и их структурных

связей.

Инфологическая модель является исходной для построения даталогической

модели БД и служит промежуточной моделью для специалистов предметной

области (для которой создается БнД) и администратора БД в процессе

проектирования и разработки конкретной БнД.

Под даталогической понимается модель, отражающая логические

взаимосвязи между элементами данных безотносительно их содержания и

физической организации. При этом даталогическая модель разрабатывается с

учетом конкретной реализации СУБД, также с учетом специфики конкретной

предметной области на основе ее инфологической модели.

Инфологическая модель предметной области строится первой.

Предварительная инфологическая модель строится еще на пред проектной стадии

и затем уточняется на более поздних стадиях проектирования баз данных.

Затем на ее основе строятся концептуальная (логическая), внутренняя

(физическая) и внешняя модели.

Концептуальный уровень соответствует логическому аспекту представления

данных предметной области в интегрированном виде. Концептуальная модель

состоит из множества экземпляров различных типов данных, структурированных



в соответствии с требованиями СУБД к логической структуре базы данных.

Внутренний уровень отображает требуемую организацию данных в среде

хранения и соответствует физическому аспекту представления данных.

Внутренняя модель состоит из отдельных экземпляров записей, физически

хранимых во внешних носителях.

Внешний уровень поддерживает частные представления данных, требуемые

конкретным пользователям. Внешняя модель является подмножеством

концептуальной модели. Возможно пересечение внешних моделей по данным.

Частная логическая структура данных для отдельного приложения (задачи) или

пользователя соответствует внешней модели или подсхеме БД. С помощью

внешних моделей поддерживается санкционированный доступ к данным БД

приложений (ограничен состав и структура данных концептуальной модели БД

доступных в приложении, а также заданы допустимые режимы обработки этих

данных: ввод, редактирование, удаление, поиск).

Появление новых или изменение информационных потребностей существующих

приложений требуют определения для них корректных внешних моделей, при этом

на уровне концептуальной и внутренней модели данных изменений не

происходит. Изменения в концептуальной модели, вызванные появлением новых

видов данных или изменением и структур, могут затрагивать не все

приложения, т.е. обеспечивается определенная независимость программ от

данных. Изменения в концептуальной модели должны отражаться и внутренней

модели, и при неизменной концептуальной модели возможна самостоятельна

модификация внутренней модели БД с целью улучшения ее характеристик (время

доступа данным, расхода памяти внешних устройств и др.). Таким образом, БД

реализует принцип относительной независимости логической и физической

организации данных.

  1. Основные понятия ER-модули. Сущность. Связь. Атрибут

FOR TRAN (формулотранслятор – программ)

  1. ER – модель один из подходов

  2. Объективный подход (BP- win , ER – win) ER – повышение производительности

^ ER – модель предложена Питеро Ченом в 1976 году.

Модель Сущность-Связь (ER-модель) (англ. entity-relationship model (ERM) или англ. entity-relationship diagram (ERD)) — модель данных, позволяющая описывать концептуальные схемы. Представляет собой графическую нотацию, основанную на блоках и соединяющих их линиях, с помощью которых можно описывать объекты и отношения между ними какой-либо другой модели данных. В этом смысле ER-модель является мета-моделью данных, то есть средством описания моделей данных.
ER-модель удобна при прототипировании (проектировании) информационных систем, баз данных, архитектур компьютерных приложений, и других систем (далее, моделей). С её помощью можно выделить ключевые сущности, присутствующие в модели, и обозначить отношения, которые могут устанавливаться между этими сущностями.
ER-модель является одной из самых простых визуальных моделей данных (графических нотаций). Она позволяет обозначить структуру «крупными мазками», в общих чертах. Это общее описание структуры называется ER-диаграммой или онтологией выбранной предметной области (area of interest).

^ Сущность связей.

Цель инфологического моделирования – обеспечение естественных для человека способов сбора и представления той информации которая предполагается хранить в создаваемой БД. Поэтому инфологическую модель пытаются строить по аналогии с естественным языком. ЕЯ не может быть использован в чистом виде из-за сложности компьютерной обработки текста и многозначности языка. Основными конструкторскими элементами модели являются: сущность , связь , связи между сущностями и атрибутами. Наглядное представление 

концептуальной схемы БД дает использование ER модели , что привело к тому , что ER получили широкое распространение в кейс системах , поддерживающих автоматическое моделирование реализационных БД.

Сущность – любой различимый объект (объект, который мы можем отличить от другого), информацию о котором необходимо хранить в базе данных. Сущностями могут быть люди, места, самолеты, рейсы, вкус, цвет и т.д. Необходимо различать такие понятия, как тип сущности и экземпляр сущности. Понятие тип сущности относится к набору однородных личностей, предметов, событий или идей, выступающих как целое. Экземпляр сущности относится к конкретной вещи в наборе. Например, типом сущности может быть ГОРОД, а экземпляром – Москва, Киев и т.д.

Атрибут – поименованная характеристика сущности. Его наименование должно быть уникальным для конкретного типа сущности, но может быть одинаковым для различного типа сущностей (например, ЦВЕТ может быть определен для многих сущностей: СОБАКА, АВТОМОБИЛЬ, ДЫМ и т.д.). Атрибуты используются для определения того, какая информация должна быть собрана о сущности. Примерами атрибутов для сущности АВТОМОБИЛЬ являются ТИП, МАРКА, НОМЕРНОЙ ЗНАК, ЦВЕТ и т.д. Здесь также существует различие между типом и экземпляром. Тип атрибута ЦВЕТ имеет много экземпляров или значений:

Красный, Синий, Банановый, Белая ночь и т.д., однако каждому экземпляру сущности присваивается только одно значение атрибута.

^ Свойства сущности представляющее интерес называется атрибутом.

Свойства:

Каждая сущность должна иметь свойства , которые её описывают. Среди атрибутов выделают некоторые , которые не только описывают и уникальным образом идентифицируют сущность. Это могут быть либо отдельное свойства , атрибут или совокупность атрибутов. Такие совокупности атрибутов называются первичный ключ или уникальный индификатор сущности. Если первичный ключ состоит больше чем из одного свойства , его называют составной первичный ключ.

Если существует несколько возможности для выбора первичного ключа , то каждый из вариантов называют ключом , кандидатов или возможным ключом.

Как и в случае с сущностями важно различать атрибут и экземпляр сущности. Атрибутов автомобиля является регистрационный номер.

Экземпляр – конкретное значение регистрационного номера.

Связи сущности (отношение) - ассоциирование (связывание) двух или более сущностей.

Если бы назначением БД было бы только хранение отдельных , несвязанных между собой данных её структура была бы очень простой.

Однако одно из основных требований к организации БД обеспечение отыскание одних сущностей по значениям других , для чего необходимо установить между сущностями определенные связи.

Связь – это графически изображенная ассоциация , устанавливаемая между двумя сущностями. Это ассоциация всегда является бинарной и может существовать , между двумя разными сущностями или между сущностью самой собой (рекурсивная связь)

В любой связи выделяют два конца в любой с существующей парой , связываемых сущностей. На этих концах указывается: имя конца связи , его степень и обязательность. Степень – сколько экземпляров сущностей связывается.


  1. ^ В чем различие меду типом и экземпляром сущности?



Сущность – любой различимый объект (объект, который мы можем отличить от другого), информацию о котором необходимо хранить в базе данных. Сущностями могут быть люди, места, самолеты, рейсы, вкус, цвет и т.д.

Необходимо различать такие понятия, как тип сущности и экземпляр сущности. Понятие тип сущности относится к набору однородных личностей, предметов, событий или идей, 

выступающих как целое. Экземпляр сущности относится к конкретной вещи в наборе. Например, типом сущности может быть ГОРОД, а экземпляром – Москва, Киев и т.д.


  1. ^ Уникальный идентификатор сущности.


Одним из основных компьютерных способов распознавания сущностей в базе данных является присвоение сущностям идентификаторов (Entity identifier). Часто идентификатор сущности называют ключом. Задача выбора идентификатора сущности является семантически субъективной задачей. Поскольку сущность определяется набором своих атрибутов, то для каждой сущности целесообразно выделить такое подмножество атрибутов, которое однозначно идентифицирует данную сущность.
Некоторые сущности имеют естественные идентификаторы. Например, естественным идентификатором счета-фактуры является его номер. Идентификаторы сущности могут быть составными - составленными из нескольких атрибутов и атомарными - составленными из одного атрибута сущности.
Идентификация сущностей проводится аналитиками. Однако чаще всего их решение не является окончательным! Задача проектировщика баз данных - обеспечить при сохранении экземпляров сущности в базе данных наличие у каждого ее нового экземпляра уникального идентификатора. Уникальный идентификатор сущности - это атрибут сущности, позволяющий отличать одну сущность от другой. Если сущность имеет несколько уникальных идентификаторов, так называемых возможных ключей, то проектировщик должен выбрать первичный ключ сущности.
Различают однозначные и многозначные атрибуты. Однозначными являются атрибуты, которые в пределах конкретного экземпляра сущности имеют только одно значение. В противном случае они считаются многозначными.
Важным моментом изучения информационной модели проектировщиком является выделение многозначных атрибутов сущности. Это связано с тем, что реляционная модель базы данных не поддерживает многозначных атрибутов, и они должны быть разрешены на последующих стадиях проектирования.
Каждый атрибут сущности имеет домен (domain). Домен - это выражение, определяющее значения, разрешенные для данного атрибута. Иными словами, домен - это область значений атрибута. Проектировщик базы данных должен проконтролировать, чтобы в информационной модели предметной области для каждого атрибута сущностей был определен домен.
На уровне информационного моделирования данных назначение домена атрибуту носит общий характер. Например, атрибут текстовый, числовой, бинарный, дата или "не определен". В последнем случае аналитик должен дать описание домена. На последующих стадиях тип домена конкретизируется, смысл понятия домена в логической и физической моделях базы данных уже, чем его может понимать аналитик. Это связано с тем, что в рамках физической модели базы данных домен реализуется посредством механизма ограничения домена, СУБД не понимает неопределенных доменов.


  1. ^ Нормальные формы ER-схем. Нормализация отношений

Как и в реляционных схемах баз данных, в ER-схемах вводится понятие нормальных форм, причем их смысл очень близко соответствует смыслу реляционных нормальных форм. Заметим, что формулировки нормальных форм ER-схем делают более понятным смысл нормализации реляционных схем. Мы приведем только очень краткие и неформальные определения трех первых нормальных форм.



В первой нормальной форме ER-схемы устраняются повторяющиеся атрибуты или группы атрибутов, т.е. производится выявление неявных сущностей, "замаскиро-ванных" под атрибуты.

^ Во второй нормальной форме устраняются атрибуты, зависящие только от части уникального идентификатора. Эта часть уникального идентификатора определяет отдельную сущность.

^ В третьей нормальной форме устраняются атрибуты, зависящие от атрибутов, не входящих в уникальный идентификатор. Эти атрибуты являются основой отдельной сущности.

^ Нормальная форма — свойство отношения в реляционной модели данных, характеризующее его с точки зрения избыточности, которая потенциально может привести к логически ошибочным результатам выборки или изменения данных. Нормальная форма определяется как совокупность требований, которым должно удовлетворять отношение.

Процесс преобразования базы данных к виду, отвечающему нормальным формам, называется нормализацией. Нормализация предназначена для приведения структуры базы данных к виду, обеспечивающему минимальную избыточность, то есть нормализация не имеет целью уменьшение или увеличение производительности работы или же уменьшение или увеличение объёма БД. Конечной целью нормализации является уменьшение потенциальной противоречивости хранимой в БД информации.

Устранение избыточности производится, как правило, за счёт декомпозиции отношений таким образом, чтобы в каждом отношении хранились только первичные факты (то есть факты, не выводимые из других хранимых фактов).

^ Типы нормальных форм

Нормализация может применяться к таблице, которая представляет собой правильное отношение.

Первая нормальная форма (1NF)

Основная статья: Первая нормальная форма

Отношение находится в первой нормальной форме тогда и только тогда, когда в любом допустимом значении отношения каждый его кортеж содержит только одно значение для каждого из атрибутов.

В реляционной модели отношение всегда находится в первой нормальной форме по определению понятия отношение. Что же касается таблиц в существующих реляционных СУБД (SQL-СУБД), то они могут не быть правильными отношениями и, соответственно, не находиться в 1NF.

[править]

^ Вторая нормальная форма (2NF)

Основная статья: Вторая нормальная форма

Отношение находится во второй нормальной форме, если оно находится в первой нормальной форме, и при этом любой его атрибут, не входящий в состав потенциального ключа, функционально полно зависит от каждого возможного ключа. Функционально полная зависимость означает, что атрибут функционально зависит от всего составного потенциального ключа, но при этом не находится в функциональной зависимости от какой-либо из входящих в него частей. Или другими словами: в 2NF нет неключевых атрибутов, зависящих от части составного ключа.

[править]

^ Третья нормальная форма (3NF)



Основная статья: Третья нормальная форма

Согласно определению Кодда, таблица находится в 3НФ тогда и только тогда, когда выполняются следующие условия:

Отношение R (таблица) находится во второй нормальной форме;

Каждый непервичный атрибут R находится в нетранзитивной (то есть прямой) зависимости от каждого ключа R.

Таким образом, отношение находится в 3NF тогда и только тогда, когда оно находится во 2NF и отсутствуют транзитивные зависимости неключевых атрибутов от ключевых. Транзитивной зависимостью неключевых атрибутов от ключевых называется следующая: A → B и B → C, где A — набор ключевых атрибутов (ключ), B и С — различные множества неключевых атрибутов.

При решении практических задач в большинстве случаев третья нормальная форма является достаточной. Процесс проектирования реляционной базы данных, как правило, заканчивается приведением к 3NF.

[править]

^ Нормальная форма Бойса — Кодда (BCNF)

Основная статья: Нормальная форма Бойса — Кодда

Это более строгая версия третьей нормальной формы.

Отношение находится в BCNF тогда и только тогда, когда каждая ее нетривиальная и неприводимая слева функциональная зависимость имеет в качестве своего детерминанта некоторый потенциальный ключ.

[править]

^ Четвёртая нормальная форма (4NF)

Основная статья: Четвёртая нормальная форма

Таблица находится в 4NF, если она находится в BCNF и не содержит нетривиальных многозначных зависимостей.

[править]

^ Пятая нормальная форма (5NF)

Основная статья: Пятая нормальная форма

Таблица находится в 5NF, если она находится в 4NF и любая многозначная зависимость соединения в ней является тривиальной. Пятая нормальная форма в большей степени является теоретическим исследованием и практически не применяется при реальном проектировании баз данных. Это связано со сложностью определения самого наличия зависимостей «проекции — соединения», поскольку утверждение о наличии такой зависимости должно быть сделано для всех возможных состояний БД.

[править]

^ Доменно-ключевая нормальная форма (DKNF)

Основная статья: Доменно-ключевая нормальная форма

Отношение в ДКНФ не имеет аномалий модификации. Другими словами, что бы ни менялось — ничего не потеряется, если соблюдены все ограничения относительно ключей и доменов. Формулировка слишком общая, но суть ее заключается в том, что если выполнять некоторые правила, то при любых действиях с таблицей ее целостность не пострадает и вся необходимая информация сохранится. Если рассматривать на примере, то правила действуют примерно так: нельзя просто удалить категорию из таблицы категорий, если с этой категорией связаны, например, продукты из таблицы продуктов. Прежде чем удалять категорию, необходимо выполнить предварительные действия в таблице продуктов (например, поле, отвечающее за id категории этого товара, нужно сделать NULL).



[править]

^ Шестая нормальная форма (6NF)

Основная статья: Шестая нормальная форма

Введена К. Дейтом в его книге[1], как обобщение пятой нормальной формы для темпоральной базы данных.
Реклама:





Скачать файл (96.3 kb.)

Поиск по сайту:  

© gendocs.ru
При копировании укажите ссылку.
обратиться к администрации
Рейтинг@Mail.ru