Logo GenDocs.ru

Поиск по сайту:  

Загрузка...

Лекции по базам знаний и экспертным системам - файл 1.doc


Лекции по базам знаний и экспертным системам
скачать (1259 kb.)

Доступные файлы (1):

1.doc1259kb.24.11.2011 09:16скачать

содержание
Загрузка...

1.doc

1   2   3   4   5   6   7   8   9   10
Реклама MarketGid:
Загрузка...
^

Документо-информационные поисковые системы (ДИПС)


Основная цель: обеспечить информационную потребность пользователя (поиск документов возможно содержащих информацию, интересующую пользователя).

Информационная потребность пользователя – это та информация, которая необходима пользователю (формируется в виде запроса по специальным правилам).

Пертинентность – это соответствие содержания документа информационной потребности пользователя.

Релевантность – это соответствие содержания документа информационному запросу.

Качество ДИПС зависит от технологии поиска релевантных документов.
^

Общая схема ДИПС




Подсистема А: ввод и регистрации документов.

Решаемые задачи:

- преобразование документов в электронный вид

- регистрация документов

- удаленный доступ

Подсистема В: обработка документов

- ведение словаря

- формирование поискового образа документа

- поисковые предписания (то на основе чего выполняется поиск).

Для эффективности поиска документов поисковые образы отражаются в структуре (индекс).

Подсистема С: поиск документов

- критерий смыслового соответствия определенных документов, поисковые образы которых соответствуют поисковому предписанию.

Подсистема D: ведение и хранение документов.

Качество ИПС:

  1. Модель документа (ПОД)

  2. КСС (алгоритм поиска релевантных документов).

Модель документа описывается в неком языке:

  1. Формальный язык

  2. Подмножество естественного языка

Основная проблема – это проблема неоднозначного смысла естественного языка, который связан с наличием контекста (синонимы, омонимы).
^

Пример построения ДИС. Кластеризация документов.


Документ_текст→описание предметной области→словарь(tl1,tl2,…,tln)

Набор понятий в этой предметной области(di1,di2,…,din) dij – это значение j –того термина в i – том документе.

В простейшем случае dij =

Запрос: значимость j – того термина для запроса.

Пусть в базе данных m-документов , I =1

В качестве соответствия могут использоваться следующие функции:

S (z,d) – мера Дайеса

S (z,d) =

S (z,d) =

Эффективность такого подхода зависит от качества словаря.

Формально, качество словаря можно оценить следующим образом.

Назовем центроидом G = gj =

– параметр, подбираем эмпирически

SD = - плотность простр. документов

SDj = - плотность простр. документов без j – того термина

Все термины делятся на три группы (из семантики терминов):

  1. часто встречающиеся слова

  2. слова с высокой разрешимой способностью

  3. редко встречающиеся, существенные термины.

Закон Ципфа:



- частота встречи слова, - значимость

Те слова, у которых большое:

I – отбрасываются вообще

III – могут заменяться синонимами

Слова с отрицательной разрешимой способностью в группы

Слова с невысокой разрешимой способностью заменяются синонимами

Кластеризация


Так как количество документов m→, то для эффективного поиска желательно объединить документы в группы. Этот процесс называется кластеризацией. А группа – кластером.

Таблица Dnxm = dij =

Из DnxmSij = dij/

Sij= d/

Cnxn = Sx (матрица коэффициентов покрытия)

С= (взаимозависимость документов)

С – значимость термина в документе

С’ – значимость документа для термина

- коэффициент уникальности документа

- коэффициент связи других документов





- средний коэффициент уникальности

- средний коэффициент связи

- теоретическое число кластеров

mc = 1/s – среднее число документов в кластере

^ Кластер – это группа документов близких по содержанию

pi = , где ti = – собирательная способность документа.

  1. Вычисление pi

  2. Выбирается документов, с max значением собирательной способности

  3. Для каждого элемента в матрице С находим ядра

  4. Для каждого находим dk Cjk=max

C =



dj - относительно к кластеру Сk если сjk

При совпадении сjk для нескольких кластеров выбирается кластер с максимальной собирательной способностью.

Для документа, у которого сjk=0 образуют отдельный кластер, либо присоединяются к кластеру в который входит документ наиболее близкий к ним по смыслу.

Набор кластеров: сk , k = 1,2,…,

Для каждого кластера строится центроид (обобщенный образ) документов этого кластера.

gij =

1 – fij *

Fiavg = – средняя частота термина i в кластере в документе, который содержит этот термин

- число кластеров документов, которые содержат этот термин.

Fij – частота использования термина i в документе j кластера.

Замечание: – коэффициент ослабления.

Если центроид кластеров содержит мало 1, то можно использовать для того, чтобы увеличить представление терминов.

Далее процесс повторяется для центроида. При этом термины, значения которых = 0 для всех центроидов, могут быть исключены.

В результате многократного выполнения этой операции получается дерево центроидов.

Поиск может быть (по дереву):

  • точный

  • расширенный.

Запрос представляет вектор z. Для каждой вершины:

А) D*(0 строчка)  С

Б) С выбираем центроид i С0i max

В) Переходим к вершине, которая соответствует i центроиду.

При расширенном поиске выделяем сразу группы кластеров. В качестве критерия семантического соответствия удобно использовать меры близости(коэффициент косинуса или меру Дайеса).

При поиске выбираем те вершины, у которых Сoi   или .

Из дерева кластеров вырезается поддерево. Если запрос содержит логические операции (и, не, или), то им соответствуют дополнение, пересечение, объединение.

Иногда вектор запроса допускает использование отрицания: Zi =

В качестве меры близости могут использоваться: SIM(Z,g) = , где F1(Zj,gj) = ;

F2(Zj,gj) =
1   2   3   4   5   6   7   8   9   10



Скачать файл (1259 kb.)

Поиск по сайту:  

© gendocs.ru
При копировании укажите ссылку.
обратиться к администрации
Рейтинг@Mail.ru