Logo GenDocs.ru

Поиск по сайту:  

Загрузка...

Захаров В.П. Информационно-поисковые системы - файл n1.doc


Захаров В.П. Информационно-поисковые системы
скачать (410.5 kb.)

Доступные файлы (1):

n1.doc411kb.21.12.2012 14:52скачать

Загрузка...

n1.doc

  1   2   3   4
Реклама MarketGid:
Загрузка...


Санкт-Петербургский государственный университет

Филологический факультет

Кафедра математической лингвистики
В.П. Захаров

ИнформационнО-ПОИСКОВЫЕ
системы



Учебно-методическое пособие

Санкт-Петербург

2005

ББК 73:81.1


З-38

Рецензенты:

докт. техн. наук В.Ш. Рубашкин (С.-Петерб. гос. ун-т)

канд. пед. наук О.А. Арбатская (С.-Петерб. гос. ун-т культ. и иск-в)
Печатается по постановлению
Редакционно-издательского совета
С.-Петербургского государственного университета


Захаров В.П.

З-38 Информационно-поисковые системы: Учебно-метод. пособие. — СПб., 2005.  — 48 с.
Предлагаемое пособие содержит описание основ документального информационного поиска, программу учебной дисциплины «Теория информационного поиска», которая изучается студентами 3-го курса отделения структурной и прикладной лингвистики Санкт-Петербургского государственного университета, и набор лабораторных (практических) работ по этой дисциплине. Отдельные лабораторные работы используются для обучения студентов других курсов и по другим дисциплинам. Пособие базируется на исследовательской и преподавательской деятельности автора.

Для студентов и аспирантов, специализирующихся в области прикладной лингвистики, информационных систем и автоматизированных систем обработки текста.

ББК 73:81.1



В.П. Захаров, 2005

Санкт-Петербургский
государственный
университет, 2005
1. Введение в теорию и практику
информационного поиска

1.1. Основные понятия информационного поиска

Информационно-поисковая система (ИПС) — это упорядоченная совокупность документов (массивов документов) и информационных технологий, предназначенных для хранения и поиска информации — текстов (документов) или данных (фактов). Информационно-поиско-выми системами являются любые определенным образом организованные хранилища информации. Причем информационно-поисковые системы могут быть и неавтоматизированными. Главное — это целевая функция: хранение и поиск информации.

В зависимости от объекта хранения и типа запроса различают два вида информационного поиска: документальный и фактографический — и, соответственно, два типа ИПС — документальные и фактографические. Последние также называют информационно-справочными ИПС.

Документальными называются ИПС, в которых реализуется поиск по тематическим запросам в массиве документов или текстов с последующим предоставлением пользователю подмножества этих документов или их копий. Понятие документа может меняться от системы к системе. В общем случае это некий информационный объект, зафиксированный (обычно посредством некоторой знаковой системы) на каком-то материальном носителе (бумага, фото- и кинопленка, магнитная память и т.п.) и предназначенный для передачи в пространстве и времени в системе социальных коммуникаций.

Фактографические ИПС реализуют хранение, поиск и выдачу непосредственно фактических данных (научных, технических, экономических характеристик и свойств объектов, процессов, явлений, адресов, наименований, количественных данных и т.п.).

Главное, сущностное, различие между документальным и фактографическим поиском заключается в подходе к семантике документов. В документальных системах описывается смысл документов в целом с точки зрения их тематического, предметного содержания. В этом случае важно выявить и назвать (перечислить) основные темы и объекты, которым посвящен документ. В фактографических системах описываются объекты, фиксируются их признаки и значения этих признаков. Отсюда различия в языках описания и способах хранения описаний в системе. Соответственно, для каждого вида поиска существуют свои поисковые средства.

Фактографические системы предполагают накопление и поиск в массиве документов со строго регламентированной структурой. Такая структура является или результатом предварительной интеллектуальной обработки документов при вводе информации в систему, или наличием таких документов в готовом виде в конкретных сферах человеческой деятельности, например, учетные формы, бланки, справочники, расписания и т.п. Существуют фактографические ИПС, которые обеспечивают накопление информации и поиск только по одному типу объектов и только по одному типу запросов. Существуют и более развитые фактографические системы, обеспечивающие хранение и поиск данных, разнообразных по содержанию и структуре, но это разнообразие всегда конечно.

В то же время между документальными и фактографическими системами нет непреодолимой разницы. Нередко реальные ИПС представляют собой пример смешанных систем, в которых фактографическая информация используется как дополнительное средство документального поиска, и наоборот. В документальных системах тексты (документы) также могут быть структурированы, разбиты на фрагменты или поля, и обработка и выдача документальной информации может вестись на уровне отдельных полей.

Выделяют еще и третий тип систем, которые называют информационно-логическими. Это системы, отвечающие на запросы, на которые в информационной базе в явном виде ответа нет. Получить ответ помогает экстралингвистическая база знаний и информация, порождаемая алгоритмически из уже имеющейся (документальной или фактографической). Эта новая информация или выдается как ответ на запрос, или дополнительно используется для поиска.

Информационно-поисковая система документального типа представляет собой упорядоченную совокупность документов, а также совокупность средств и методов, предназначенных для хранения, поиска и выдачи по запросам документальной информации. Документальная ИПС выдает документы, соответствующие запросу по теме, по предмету. Документ, центральный предмет или тема которого в целом соответ­ствует смысловому содержанию информационного запроса, называется релевантным, а свойство смысловой близости между двумя и более текстами (в данном случае — между документом и информационным запросом) — релевантностью. Релевантность — это фундаментальное понятие теории информационного поиска. Говорят о двух видах релевантности: смысловой и формальной. Соответствие документа содержа­нию информационного запроса называют смысловой релевантностью, а соответствие поискового образа этого документа формализованному поисковому предписанию, выражающему данный информационный запрос, — формальной релевантностью. Также формальную релевантность называют релевантностью документа, а смысловую релевантность — релевантностью информации (имеется в виду «информации, содержащейся в документе»).

Составные части ИПС называют подсистемами. Разделение на подсистемы необходимо и полезно как в целях разработки, так и для описания технологии функционирования систем. Оно может иметь разную основу. Обычно рассматривают два типа разбиения ИПС на подсистемы: по функциональному принципу (функциональные подсистемы) и по типу средств (обеспечивающие подсистемы).

Различные средства, реализующие функции ИПС, получили название обеспечивающих подсистем, или «обеспечений». Выделяют следующие подсистемы: лингвистическое обеспечение, информационное обеспечение, техническое обеспечение, программное обеспечение, технологическое обеспечение, кадровое обеспечение и др.

Информационное обеспечение — это информационные массивы (документы, запросы, метаданные), а также средства и способы их описания, построения и классификации.

Лингвистическое обеспечение — это логико-семантический аппарат, состоящий из информационно-поискового языка, правил применения (методик индексирования), критерия выдачи и других языковых средств.

Программное обеспечение — это алгоритмы и программные средства, реализующие все функции ИПС, выполняемые с помощью компьютера.

Техническое обеспечение — это технические средства (компьютеры, средства телекоммуникаций), обеспечивающие хранение, поиск и передачу информации.

Технологическое обеспечение — это набор и порядок выполнения автоматизированных и неавтоматизированных процессов и процедур обработки информации в ИПС, включая их описание, информационно-технологические схемы и инструктивно-методические материалы.

Кадровое (или штатное) обеспечение — это люди, взаимодействующие с системой и обеспечивающие ее эксплуатацию (обслуживающий персонал).

ИПС также делят на составные части (подсистемы) по функциональному признаку, когда каждая подсистема выполняет определенную функцию в технологическом процессе: ввод документов, индексирование документов, ввод и корректировка запросов, индексирование запросов, поиск, ведение словарей, ведение статистики, обработка результатов поиска, выдача документов и др. Такие части получили название функциональных подсистем.

Важные понятия в информационном поиске — документ и запрос. Документ определяется как средство закрепления любым способом на специальном материале любой информации о фактах, событиях, явлениях объективной действительности и мыслительной деятельности человека. Документы имеют различную форму представления. В автоматизированных документальных ИПС это прежде всего текстовая информация на естественных языках в машиночитаемой форме.

Запрос представляет собой информационную потребность, сформулированную на естественном языке. Результат «перевода» информационного запроса на информационно-поисковый язык называют поисковым образом запроса (ПОЗ) или поисковым предписанием (ПП). Под этим понимают выражение на языке запросов, который включает в себя как собственно ИПЯ, так и средства управления поиском. Синтаксис и семантика языков запросов определяется структурой и наполнением документов и общими задачами системы.

Третья часть информационного обеспечения — так называемая «выдача», результаты поиска. Выдача существует в двух видах: краткие описания документов и собственно документы.

Важнейшей компонентой информационно-поисковых систем является информационно-поисковый язык. Человек, чтобы отобрать из массива документов нужные, должен прочитать или просмотреть их содержимое. Для ускорения и упрощения этой процедуры появились различные формы сокращенной записи содержания документов — аннотации, рефераты, каталоги. Но во всех этих случаях при отборе документов по их сокращенным описаниям используется естественный язык. Хорошо известны такие «недостатки» языковых знаков, как омонимия, синонимия, многозначность. Точное значение многих слов можно понять только в контексте. Это препятствует использованию естественного языка для фиксации и отождествления понятийной информации. Поэтому формальные системы, предназначенные для хранения документальной информации с целью последующего поиска, потребовали создания специальных информационных языков. Информационно-поисковые языки представляют собой знаковые системы со своим алфавитом, лексикой, грамматикой и правилами пользования. Заметим лишь, что все искусственные языки так или иначе создавались и создаются на основе естественных языков.

При сопоставлении документов и запросов требуется определить релевантность документа по отношению к запросу и принять решение о выдаче или невыдаче документа на данный запрос. Правила, на основе которых формально определяется степень релевантности документа и запроса, т.е. соответствие ПОД и ПОЗ, называются критерием смыслового соответствия (КСС), или критерием выдачи.

Математические модели и формулы вычисления коэффициента релевантности могут быть самые разные. На практике повсеместное распространение получили ИПС с логическим критерием выдачи, когда ПП строятся с использованием логических (булевых) операторов конъюнкции (&), дизъюнкции (\/), отрицания (~). В этом случае логическое выражение запроса представляет собой набор поисковых элементов (обычно ключевых слов), объединенных логическими операторами и скобками, необходимыми для указания порядка выполнения операторов. Ключевые слова ПП играют роль булевых переменных, принимающих значение 1 («истина»), если данное слово содержится в документе, и 0 («ложь»), когда оно там отсутствует. Документ признается релевантным запросу, если логическая формула запроса в целом получает для данного документа значение «истина», и нерелевантным, если результат вычисления логической формулы дает «ложь».

Принятые в логике для обозначения конъюнкции, дизъюнкции и отрицания значки (&, \/, ~) в информационном поиске обычно заменяют на операторы AND, OR и NOT соответственно. В России чаще используются обозначения И, ИЛИ, НЕ. Однако в общем случае в каждой конкретной ИПС обозначения для булевых операторов выбираются свои, причем иногда для удобства пользователя вводится несколько значков для одного и того же оператора (например, в ИПС «Апорт» оператор конъюнкции может быть задан следующими знаками: &, пробел, AND, И, +).

Использование булевых операторов обеспечивает логику сравнения документов и запросов, понятную пользователю. Поиск (вычисление истинности для элементов ПП), как правило, проводится по специальным индексным (инвертированным) файлам, построенным на основе словника документального массива, и характеризуется высокой скоростью. Эти простота и понятность логического КСС и явились причиной его широкой распространенности.

Проблема оценки эффективности поиска является комплексной проблемой, включающей как теоретическую, так и практическую сторону. Главные из функциональных (технических) показателей ИПС, базирующихся на релевантности, — это полнота и точность, которые основываются на разделении документов на релевантные и нерелевантные, а также на выданные и невыданные.

Полнотой поиска (П) (англ. Recall — R) называется мера, вычисляемая как отношение количества выданных релевантных документов к общему числу релевантных документов, содержащихся в информационном массиве.

Точность поиска (Т) (англ. Precision — P) — это отношение количества выданных релевантных документов к общему числу документов в выдаче.

1.2. Информационный поиск в сети Интернет

Переход к информационному обществу XXI века породил беспрецедентный рост объемов и концентрации информации в глобальных компьютерных сетях. Это резко обострило проблему создания информационно-поисковых систем (ИПС) и их эффективного использования.

История автоматизированных информационно-поисковых систем исчисляется полувеком. Типичная ИПС первых лет — это человеко-машинная система, где анализ и описание содержания документов (индексирование) выполняется вручную, а поиски проводятся машиной. Первоначально основу ИПС составляли информационно-поисковые языки (ИПЯ), основным элементом которых являются дескрипторные словари и тезаурусы. Сегодня, однако, большинство работающих ИПС относится к классу вербальных систем бестезаурусного типа, когда индексационные термины выбираются непосредственно из текстов документов. Лавинообразный рост объемов электронной документальной информации, ее видовое, тематическое и языковое разнообразие являются как причиной кризиса современного информационного поиска, так и стимулом его совершенствования.

Проблема поиска ресурсов в сети Интернет была осознана достаточно скоро, и в ответ появились различные системы и програм­мные инструменты для поиска, среди которых следует назвать системы Gopher, Archie, Veronica, WAIS, WHOIS и др. В последнее время на смену этим инструментам пришли «клиенты» и «серверы» всемирной паутины WWW.

Если попытаться дать классификацию ИПС сети Интернет, то можно выделить следующие основные типы:

1. ИПС вербального типа (поисковые системы – search engines)

2. Классификационные ИПС (каталоги – directories)

3. Электронные справочники («желтые» страницы и т.п.)

4. Специализированные ИПС по отдельным видам ресурсов

5. Интеллектуальные агенты.

Глобальный учет всех ресурсов Интернета обеспечивается вербальными и отчасти классификационными системами.

Классификационные ИПС реализуют навигацию в веб-пространстве на основе специальных указателей, представляющих собой тематические «деревья», строящиеся на основе классификаций. Схемы классификации ресурсов в Интернете — это, как правило, древесные структуры, узлы которых названы словами естественного языка. Различные классификационные схемы отличаются друг от друга по объему и методологии их составления. Одним из недостатков универсальных иерархических классификаций является то, что они консервативны и отстают от развития науки, техники и жизни вообще. Главная проблема классификационных поисковых служб — это автоматизация классификации. До сих пор задача автоматической классификации удовлетворительного решения не нашла. Регистрация веб-сайтов и веб-страниц в каталогах, как правило, осуществляется людьми — индексаторами и модераторами данной системы. И поэтому объем базы данных систем классификационного типа сравнительно невелик по сравнению с информационной емкостью всего Интернета.

Для решения проблемы максимального охвата ресурсов Интернета создаются системы, называемые метапоисковыми (metasearch engines). Они не имеют собственных поисковых баз данных, не содержат никаких индексов и при поиске используют ресурсы других поисковых систем. За счет этого вероятность нахождения нужной информации возрастает. Для передачи запроса к поисковой системе используется специальный метапоисковый агент, который отвечает за процесс ретрансляции запроса в другие системы. После обработки полученного запроса каждая система возвращает метапоисковому агенту множество описаний и ссылок на документы, которые считает релевантными данному запросу. При всей привлекательности метапоисковых систем следует помнить и об их минусах и недостатках. Прежде всего, отсутствие единого стандарта языка запросов не позволяет метасистемам добиваться от поисковых систем, выполняющих запросы метапоисковых систем, такого же результата, какого может добиться опытный пользователь при работе с каждой машиной в отдельности.

Основным средством поиска информации в сети сегодня следует считать глобальные ИПС вербального типа (search engines), индексирующие (по крайней мере, претендующие на это) все Интернет-пространство. К числу главных поисковых систем этого типа (в первую очередь, по объему базы данных) можно отнести Google, Fast (AlltheWeb), AltaVista, HotBot, Inktomi, Teoma, WiseNut, MSN Search. Среди российских систем главными являются три: Яндекс (Yandex), Рамблер (Rambler) и Апорт! (Aport). Полнота поисковой базы и оперативность индексирования веб-сайтов является главной проблемой всех ИПС в Интернете. Как правило, системы с бульшим объемом базы дают в результате поиска и большее количество документов. Большая, как лингвистическая, так и программная проблема — многоязычие информационного пространства Интернета и многообразие форматов представления данных. Тем не менее, основные глобальные системы с этими проблемами справляются.

Именно вербальным ИПС и уделено основное внимание в практической части пособия. Прежде всего, моделируется уровень пользователя, выражающийся в языках запросов и в запросно-ответных интерфейсах. Производится сравнительный анализ языков запросов различных ИПС сети Интернет.

Особенность современных систем — полнотекстовый поиск. Многие вербальные ИПС сети Интернет вычисляют релевантность документов запросам путем сопоставления элементов запроса с полными текстами документов, размещенных в сети. Что касается информационно-поискового языка, то, как правило, в качестве поисковых элементов выступают обычные слова естественных языков. Запросы формулируются через специальный интерфейс, реализуемый в виде экранных форм в программах-броузерах.

Полезно представлять, как эти системы устроены. В составе любой поисковой системы можно выделить три основные части.

Роботподсистема, обеспечивающая просмотр (сканирование) Интернета и поддержание инвертированного файла (индексной базы данных) в актуальном состоянии. Этот программный комплекс является основным средством сбора информации о наличии и состоянии информационных ресурсов сети.

Поисковая база данныхтак называемый индекс — специальным образом организованная база (англ. index database), включающая, прежде всего, инвертированный файл, который состоит из лексических единиц, взятых из проиндексированных веб-документов, и содержит разнообразную информацию о них (в частности, их позиции в документах), а также о самих документах и сайтах в целом.

Поисковая системаподсистема поиска, обеспечивающая обработку запроса (поискового предписания) пользователя, поиск в базе данных и выдачу результатов поиска пользователю. Поисковая система общается с пользователем через пользовательские интерфейсы — экранные формы программ-броузеров: интерфейс формирования запросов и интерфейс просмотра результатов поиска.

Индексный файл (или просто индекс) представляет собой набор связанных между собой файлов, ориентированных на быстрый поиск данных по запросу. В основе индекса всегда лежит инвертированный файл. Инвертированная (инверсная) схема организации поискового массива основана на принципе обеспечения доступа к документам через их идентификаторы содержания (поисковые признаки: дескрипторы, ключевые слова, термины, другие признаки). Такую схему получают путем обработки последовательного массива документов с целью создания специальных вспомогательных инвертированных файлов — точек доступа.

Каждая запись такого вспомогательного массива идентифицирована соответствующим идентификатором содержания (дескриптор, ключевое слово, просто термин, имя автора, название организации и т.п.) и содержит имена (адреса хранения) всех документов, в поисковых образах которых он содержится. Для каждого идентификатора содержания (поискового элемента данных) в инвертированном массиве вместе с адресом (номером, именем) документа может храниться (и обычно хранится) дополнительная информация, как-то: имя поля, номер предложения, в составе которых данный элемент встретился в данном документе, номер слова в предложении и т.д. Фиксация положения слова в тексте с точностью до номера предложения и номера этого слова в предложении позволяет построить гибкий язык запросов, позволяющий задавать расстояние между словами и предложениями в документе. Позиционные характеристики также используются при вычислении коэффициента релевантности и ранжировании документов в выдаче.

Нахождение необходимых документов через инвертированный файл осуществляется не сплошным просмотром всего массива, а просмотром лишь тех идентификаторов содержания в инвертированном файле, которые заданы в поисковом предписании, т.е. число операций сравнения слов при поиске пропорционально числу терминов поискового предписания. Такой способ работы систем снижает время на поиск и позволяет обслуживать потребителей информации в реальном масштабе времени.

Поиск в индексе — это операции над списками идентификаторов поисковых элементов в соответствии с моделью поиска и критерием соответствия. Результирующий список релевантных документов (в современной терминологии «отклик»), который преобразуется в ранжированный список кратких описаний документов, снабженных гипертекстовыми ссылками и другими характеристиками, возвращается пользователю в его клиентскую программу-броузер. Щелчок мышью по названию документа в его кратком описании (по гиперссылке) запрашивает этот документ либо непосредственно с того сервера, на котором он находится, либо через базу данных поисковой системы.

Важным компонентом современных ИПС являются так называемые интерфейсные веб-страницы, т.е. экранные формы, через которые пользователь общается с поисковой системой. Различают два основных типа интерфейсных страниц: страницы запросов и страницы результатов поиска.

Содержательная проблема при индексировании веб-сайтов заклю­чается в том, какие термины приписываются документам, откуда они берутся. Особенности построения и структура индекса напрямую связаны с языком запросов и возможностями поисковых систем. Наи­более важными с точки зрения пользователя представляются следу­ющие особенности ИПС:

  • индексирование полных текстов возможно большего числа сайтов;

  • «грамотная» работа со словоформами — способность ИПС отождествлять разные словоформы одной и той же лексемы, по-другому, порождать каноническую форму — лемму, и возможность выделять среди множества словоформ конкретную форму;

  • поиск слов с заданным или произвольным усечением, как правым, так и левым;

  • работа со словосочетаниями — учет расстояния между словами в словосочетаниях и порядка их следования;

  • эффективные алгоритмы вычисления коэффициента смысловой релевантности и ранжирования результатов поиска.

Также важно, какую информацию и в каком виде можно извлечь из выходных интерфейсов ИПС. Интерфейс выдачи (форма представления результатов) у разных систем включает такие параметры: статистика слов из запроса, количество найденных документов, количество сайтов, средства управления сортировкой документов в выдаче, краткое описание документов и др. Описание каждого документа, в свою очередь, может содержать в своем составе: заглавие документа, URL (адрес в сети), объем документа, дату создания, название кодировки, аннотацию, шрифтовое выделение в аннотации слов из запроса, указание на другие релевантные веб-страницы того же сайта, ссылка на рубрику каталога, к которой относится найденный документ или сайт, коэффициент релевантности, другие возможности поиска (поиск похожих документов, поиск в найденном). Большой интерес представляют также частотные характеристики — сведения о количестве найденных документов и отождествленных языковых единиц. Некоторые системы ведут журнал запросов с возможностью повторных поисков и выдачей статистики по запросам. Полезной и интересной возможностью является также отнесение документов к тематическим классам.

Покажем особенности разных систем, наиболее популярных и обладающих наиболее развитым лингвистическим обеспечением (см. Табл., с. 14). В первую очередь, это российские ИПС Яндекс, Рамблер и Апорт. Возможно, наиболее мощный лингвистический аппарат имеет ИПС «Артефакт» (фирма «Интегрум-ТЕХНО», г. Москва), однако эта система является коммерческой и ее база данных по составу заметно отличается от других. Из западных систем, в большинстве своем не обладающих развитыми лингвистическими средствами анализа текстового материала, возьмем хорошо известные ИПС Google и AltaVista. Кратко охарактеризуем особенности этих систем (наличие или отсутствие соответствующих возможностей помечено знаками «+» и «—»).

«Поиск по лексемам» означает, что результат сравнения слов документов и запросов признается положительным при наличии в документе любой формы слова из запроса, что обеспечивается механизмом автоматической лемматизации.

«Поиск по словоформам» означает, что результат сравнения документов и запросов признается положительным при наличии в документе словоформы, точно совпадающей со словом из запроса, что происходит при отсутствии автоматической лемматизации или обеспечивается особым механизмом учета словоформ.

«Частота подокументная» означает, что в результате поиска выдается сообщение о количестве релевантных документов, т. е. документов, содержащих данное слово (словоформу) или словосочетание.

«Частота пословная» означает, что в результате поиска дополнительно выдаются сведения об общем количестве словоупотреблений данной лексемы или конкретной словоформы в поисковой базе данных (индексе).

Характеристика поисковых систем




Яндекс

Рамблер

Апорт

Google

AltaVista

Поиск по лексемам

+ (однословный запрос или логическая формула)

+

+





Поиск по словоформам

+ (в синтагмах: однословный запрос в кавычках или словосочетание в кавычках)



+

+

+

Учет синтагм (неразрывных словосоч.)

+

+

+

+

+

Учет больших и малых букв

+ (в синтагмах)







1

Частота послов- ная

+









Частота подокументная

+

+

+

+

+

1.3. Языки запросов ИПС Интернет

Обратившись в какую-либо службу, пользователь, не выходя из броузера, работает с «клиентом» этой службы, предоставляющим нам тот или иной язык запросов. Как правило, это языки без контроля лексики. Фактически, мы имеем дело с нормальным ИПЯ, реализованным в архитектуре «клиент-сервер», но видим только «надводную» часть этого ИПЯ — язык запросов. Язык запросов большинства систем включает в себя как традиционные булевы операторы, так и специальные контекстные операторы, учитывающие структурирование документа, порядок слов в тексте и расстояние между словами.

На языке запросов описывается сам запрос и иногда форма представления результатов. В языках запросов сетевых ИПС можно выделить следующие основные компоненты.

1) Собственно поисковые элементы (объекты поиска).

Это или ключевые слова, или другие идентификаторы содержания.

2) Поисковые операторы.

Почти во всех языках запросов используются булевские логические операторы И, ИЛИ, НЕ. Форма, в которой эти операторы задаются в запросе, самая разная, и разнится она как в отдельных службах, так и в разных типах запросов (простой, сложный).

3) Нормализация элементов запроса.

Одни и те же лексические единицы в документах и запросах могут быть представлены в разной форме. В поисковых службах имеются способы нормализации таких лексических единиц. Эта нормализация может задаваться самим пользователем (способ, известный под названием «усечения» (truncation) или «маскирования» (wildcards)) или выполняться автоматически (последнее предпочтительнее).

4) Линейная грамматика: порядок следования поисковых элементов и расстояние между ними.

Во-первых, это «фразы» (жесткие словосочетания).

Во-вторых, имеются специальные контекстные операторы (контекстное И), когда условие совместного вхождения элементов запроса в документ должно выполняться в контексте определенной длины.

5) Дополнительные условия поиска.

Для уменьшения объема выдачи и повышения точности используются различные дополнительные условия поиска, как-то:

– поиск в определенных полях (частях) документа;

– ограничение области поиска различными критериями (дата, тип данных, формат, и т.п.).

6) Требования к форме представления результатов поиска.

– требования на сортировку (ранжирование) выдаваемых результатов поиска;

– вид выдаваемых результатов;

– количество выдаваемых документов.

Для получения (просмотра) самих документов (веб-страниц) и их просмотра необходимо отправиться по http-адресу. Как правило, системы предоставляют возможность посмотреть контекст — фрагменты документов с выделенными ключевыми словами запроса.

В процессе поиска пользователю, как правило, дается возможность вернуться к старому запросу и либо просто уточнить, сузить его, либо перейти в другой режим поиска, предоставляющий более сложные поисковые средства. Довольно широко также распространен еще один способ поиска — поиск по образцу (search similar pages). При этом стратегия поиска выбирается самой системой.

2. Программа учебной дисциплины
«Теория информационного поиска»

2.1. Организационно-методический раздел

Программа дисциплины составлена в соответствии с государ­ственным образовательным стандартом высшего профессионального образования по направлению 021800 — Лингвистика.

Цель курса состоит в том, чтобы дать студентам теоретические основы информационного поиска, в первую очередь, документального, и навыки использования различных документальных ИПС, в том числе в сети Интернет.

Задачи курса:

  • ознакомить студентов с основными понятиями и пробле­мами автоматизированного информационного поиска;

  • ознакомить студентов с основными принципами организа­ции и функционирования информационно-поисковых систем (ИПС);

  • изучить различные ИПС, в том числе ИПС сети Интернет;

  • сформировать навыки исследовательской работы по анали­зу и сопоставлению различных систем.

Место курса в профессиональной подготовке выпускника: курс носит пропедевтический характер. Он рассчитан на широкий круг студентов-гуманитариев и призван дать им основополагающее пред­ставление о способах хранения и поиска информации.

Требования к уровню освоения содержания курса

В результате обучения студент:

  • должен знать:

  • основные понятия, относящиеся к информационным сис­темам;

  • основные типы систем;

  • понятие информационно-поискового языка;

  • понятия релевантности и критерия смыслового соответ­ствия;

  • основные поисковые системы сети Интернет;

  • языки запросов и интерфейсы этих систем;

  • должен уметь:

  • осуществлять поиск в сети Интернет;

  • сравнивать и анализировать различные системы.

2.2. Содержание курса

Разделы курса:

    1. Основы информационного поиска

    2. Документальные ИПС

    3. Фактографические ИПС

    4. Лингвистическое обеспечение информационного поиска

    5. Функционирование и эксплуатация ИПС

    6. Информационный поиск в сети Интернет

    7. Настоящее и будущее информационного поиска
Краткое содержание разделов

Раздел 1. Основы информационного поиска

Предмет, цели и задачи курса. Связь курса с другими дисциплинами.

Информация, информационные процессы, информационные системы, информационные потоки, информационные технологии. Типы информационных систем (АИПС, АСНТИ, АСУ, АСНИ, АОС, САПР, ЭС, БЗ и др.).

Основные понятия информационного поиска: информация, информационная система, информационная потребность, релевантность.

Основное содержание информационного поиска. Релевантность и пертинентность. Методы определения релевантности.

Данные и документы. Виды информационных документов. Текстовые документы. Описание документов.

Запросы. Типы запросов. Предметный поиск. Основные проблемы автоматизации семантических процессов обработки информации.

Информационно-поисковые системы (ИПС). Типы ИПС. Краткий обзор основных типов: документальные, фактографические, интеллектуальные.

Библиографический поиск. Библиографические базы данных и электронные каталоги. Библиотечные системы.

Нетекстовые информационные системы (географические, картографические и др.). Поиск объектов по их описаниям (графические файлы, музыкальные файлы и т.п.). Поиск изображений и видеоинформации.


Раздел 2. Документальные ИПС

История развития автоматизированных документальных ИПС, этапы развития. Интегрированные системы. АСНТИ. Особенности современного этапа.

Составные части ИПС. ИПЯ. Критерий смыслового соответствия. Модели поиска. Абстрактная и конкретная ИПС.

Структура документальных и фактографических ИПС. Функциональные подсистемы. Структурная схема документальной ИПС.

Двухконтурные системы. Полнотекстовые ИПС. Гипертекстовые информационные системы.

Обеспечивающие подсистемы. Техническое обеспечение. Програм­мное обеспечение. Компьютерные сети. Особенности построения сетевых ИПС.

Математическая модель документальной ИПС.

Организация поисковых массивов в ИПС.

Классификация документальных ИПС по различным основаниям.

Раздел 3. Фактографические ИПС

Фактографическая информация. Хорошо структурированная и плохо структурированная фактографическая информация.

Объектно-характеристические таблицы.

Язык семантической эксп­ликации.

Эффективность фактографических ИПС.

Библиографический поиск как вид фактографического.

Раздел 4. Лингвистическое обеспечение информационного поиска

Лингвистические средства информационного поиска. Состав лингвистического обеспечения ИПС.

Понятие информационно-поискового языка (ИПЯ). ИПЯ как основной элемент логико-семантического аппарата ИПС.

Информационно-поисковые языки: классификация, типология. Объектно-признаковые языки. Классификации. Алфавитно-предметные и фасетные классификации.

Дескрипторные языки. Вербальные языки.

Семантические и синтагматические языки.

Способы описания языков. Составные части дескрипторных информационно-поисковых языков (алфавит, словарь, грамматика).

Нормирование лексики в ИПС. Дескрипторные словари. Тезаурусы. Создание словарей и тезаурусов. Авторитетный контроль как элемент лингвистического обеспечения автоматизированных библиотечных систем.

Грамматические средства ИПЯ. Парадигматические и синтагматические отношения.

Индексирование документов и запросов. Поисковые образы доку­ментов и запросов.

Языки запросов: понятие и состав. Средства и методы выражения информационной потребности. Поисковые предписания.

Модели поиска. Поисковые операторы.

Средства морфологической нормализации.

Языковые средства представления и структурирования электрон­ных документов (форматы, языки SGML, HTML, XML). Языки мета­данных (Dublin Core, GILS и др.).

Лингвистическое обеспечение фактографических ИПС. Основные единицы ИПЯ фактографических ИПС.

Раздел 5. Функционирование и эксплуатация ИПС

Информационное, технологическое и кадровое обеспечение.

Технология предмашинной обработки информации. Индексирование документов и запросов. Особенности поиска в зависимости от видов документов.

Режимы функционирования ИПС (ИРИ, ретроспективный поиск). Пакетный и диалоговый режимы.

Основные технические характеристики документальных ИПС (пол­нота, точность). Факторы, влияющие на эффективность поиска. Оценки эффективности ИПС.

Средства и методы решения лексико-семантических проблем в ИПС. Проблемы составления поисковых предписаний. Обратная связь по релевантности.

Обеспечение результатов поиска первичными документами. Электронная доставка документов.

Раздел 6. Информационный поиск в сети Интернет

Значение компьютерных сетей для организации информационного обслуживания. Способы и средства доступа к удаленным докумен­тальным массивам. Протокол Z39.50 (Search/Retrieval).

Сеть Интернет, ее краткая характеристика. Интернет как элек­тронная транспортная система. Интернет как глобальное информаци­онное пространство.

Информационные ресурсы сети Интернет. FTP-серверы. GOPHER. WAIS.

Понятие о гипертексте. Гипертекстовые системы до появления Интернета. WWW-серверы. Навигация в сети. Проблемы поиска инфор­мации.

Документальные источники информации. Электронные документы. Форматы представления текстовой информации в сети (html, pdf, ps, doc и др.). Электронные издания.

Нетекстовые информационные объекты. Понятие электронной библиотеки.

Типология поисковых систем в сети Интернет. Различные основания для классификации (по ширине охвата, по внутренним характеристикам, по видам документов).

Типология поисковых систем в Интернет. Классификационные информационно-поисковые системы (каталоги). Вербальные (текстовые, словарные) информационно-поисковые системы (поисковые машины).

Глобальные информационно-поисковые системы и службы Интернета.

Естественные языки в Интернете. Региональные ИПС. Региональные версии глобальных систем. Русскоязычный Интернет.

Методы создания поисковых баз данных в глобальных системах. Индексирование и регистрация. Роботы-индексаторы. Инструменты управления индексированием (файл robots.txt, META-элементы).

Особенности лингвистического и информационного обеспечения ИПС в Интернет. Вербальные ИПЯ. Грамматические средства ИПЯ: синтагматика. Контекстно-позиционные операторы («фразы», операторы расстояния и др.).

Проблемы ранжирования документов в выдаче. Способы управления ранжированием.

Входные интерфейсы. Языки запросов (простые, расширенные). Их состав, примеры. Сравнительный анализ языков запросов ИПС сети Интернет. Сохранение запросов (история сеанса).

Выходные интерфейсы. Представление результатов поиска. Описание документов (веб-страниц), описание сайтов. Группирование документов по сайтам. Идентификация и объединение дублей.

Управление поиском. Статистика поиска. Поиск в найденном. Поиск по подобию.

Примеры вербальных ИПС. Сравнительный анализ поисковых систем.

Практикум по отладке запросов и поиску в вербальных ИПС.

Классификационные ИПС. Способы формиро­вания базы данных в классификационных системах. Регистрация, специальные регистрационные сайты. Поиск по рубрикатору.

Практикум по поиску в классификационных ИПС.

Раздел 7. Настоящее и будущее информационного поиска

Коммерциализация Интернета в целом и поисковых служб в частности. Реклама. Плата за ускоренную регистрацию.

Развитие локальных ИПС.

Проблемы унификации и стандартизации.

Средства обратной связи. Неформальные «поисковые сообщества».

Развитие лингвистического обеспечения.

Системы с централизованной и децентрализованной распределенной архитектурой.

Интеллектуализация информационного поиска. Интеллектуальные информационные системы.

Элементы интеллектуальной обработки в глобальных ИПС сети Интернет. Интеллектуальные агенты.

Языки метаданных, языки XML, RDF, OWL и другие средства описания содержания.

2.3. Примерные вопросы для самоконтроля

Дать определения:

  1. ИПС

  2. ИПЯ

  3. Критерий выдачи

  4. Релевантность

  5. Тезаурус

  6. Составные части ИПС

  7. Состав лингвистического обеспечения

  8. Инверсный файл



Выбрать правильные варианты ответов

  1. Знак «&» в ИПС Рамблер означает операцию:

  • дизъюнкции (ИЛИ)

  • конъюнкции (И)

  • расстояния




  1. Знак «|» в ИПС Яндекс означает операцию:

  • следования

  • конъюнкции (И)

  • дизъюнкции (ИЛИ)




  1. Функциональные подсистемы ИПС — это:

  • лингвистическое обеспечение

  • программное обеспечение

  • техническое обеспечение

  • ввод документов

  • ввод запросов

  • критерий смыслового соответствия

  • поиск

  • язык запросов

  • выдача результатов поиска

  • инвертированные файлы



  1. Типы ИПЯ — это:

  • морфологические языки

  • дескрипторные языки

  • семантические языки

  • классификационные языки

  • вербальные языки

  • вторичные языки

  • объектно-признаковые языки




  1. Основные способы морфологической нормализации в ИПС:

  • на основе автоматического морфоанализа

  • усечение

  • маскирование

  • префиксация




  1. Критерий смыслового соответствия — это:

  • правила индексирования

  • правила нормализации

  • правила вычисления релевантности

  • правила вычисления полноты

  • методы ранжирования

  • методы классификации




  1. Индексирование — это:

  • морфологическая нормализация

  • составление поискового образа

  • перевод на язык математической логики

  • перевод на ИПЯ

  • вычисление релевантности

  • составление дескрипторного словаря




  1. Обеспечивающие подсистемы ИПС — это:

  • лингвистическое обеспечение

  • программное обеспечение

  • техническое обеспечение

  • ввод документов

  • ввод запросов

  • критерий смыслового соответствия

  • поиск

  • поисковые предписания

  • выдача результатов поиска

  • инвертированные файлы




  1. Типы ИПЯ:

  • объектно-признаковые языки

  • классификационные языки

  • морфологические языки

  • семантические языки

  • вербальные языки

  • вторичные языки

  • дескрипторные языки




  1. Критерий выдачи — это:

  • правила индексирования

  • правила нормализации

  • правила вычисления релевантности

  • правила вычисления полноты

  • методы ранжирования

  • методы классификации

2.4. Примерная тематика докладов, рефератов,
курсовых работ


  • Анализ и описание ИПС сети Интернет (выбор сис­темы по согласованию с преподавателем)

  • Создание терминологического банка данных по ин­форма­ционно-поисковым системам (выявление, клас­сификация терминов и толкований; результат — ги­пертекстовый словарь-указатель или поисковая база данных)

  • Исследование способов использования онлайновых словарей и тезаурусов (например, WordNet) для индекси­рования запросов в информационно-поисковых системах

  • Анализ и описание механизмов морфологической нормализации в информационно-поисковых системах

  • Учет синтагматических связей как средство повы­шения эффективности поиска в полнотекстовых ИПС (экспериментальное исследование)

  • Вычисления релевантности в информационно-поис­ковых системах (экспериментальное исследование)

  • Анализ исследований сравнительной эффективности полнотекстовых информационно-поисковых систем

  • Анализ лингвистического обеспечения полнотекс­товых информационно-поисковых систем

  • Аналитический обзор публикаций электронного жур­нала по информационно-поисковым системам Search Engine Report


2.5. Примерный перечень вопросов к экзамену
(зачету) по всему курсу


  • Абстрактная и конкретная (реальная) ИПС

  • Вербальные информационно-поисковые системы (поисковые машины). Их архитектура. Примеры вербальных ИПС

  • Глобальные и региональные ИПС в сети Интернет. Примеры

  • Грамматические средства ИПЯ. Способы выражения грамматических отношений

  • Дескрипторные словари. Тезаурусы

  • Документальная информация в сети Интернет. Текстовые документы. Языковые средства представления и структурирования документов (под углом поиска)

  • Индексирование документов и запросов. Автоматизация индексирования

  • Интеллектуальные информационные системы

  • Интернет как глобальная информационная среда. Информационные ресурсы сети. Проблемы поиска в сети Интернет

  • Информационная потребность, информационный запрос, поисковое предписание

  • Информационно-поисковые системы (ИПС). Типы ИПС. Краткий обзор основных типов

  • Информационно-поисковые языки: классификация, типология

  • ИПЯ. Дескрипторные языки. Вербальные языки

  • ИПЯ. Классификационные языки

  • История развития автоматизированных документальных ИПС, этапы развития. Особенности современного этапа

  • Классификационные информационно-поисковые системы (каталоги). Примеры классификационных ИПС

  • Классификация документальных ИПС по различным основаниям

  • Критерий смыслового соответствия. Модели поиска

  • Лингвистические средства информационного поиска. Состав лингвистического обеспечения ИПС

  • Методы создания поисковых баз данных в глобальных системах (индексирование, регистрация)

  • Морфологическая нормализация лексики в ИПС

  • Обеспечивающие подсистемы

  • Объектно-признаковые языки

  • Организация поисковых массивов в ИПС

  • Основные технические характеристики документальных ИПС (полнота, точность)

  • Понятие информационно-поискового языка (ИПЯ). Классификация (типология) ИПЯ

  • Понятия «информация» и «система». Информационные процессы и системы. Типы информационных систем

  • Проблемы многоязычного поиска в Интернет. Способы решения в разных ИПС

  • Проблемы поиска документов на русском языке. Русско-язычные ИПС

  • Проблемы составления поисковых предписаний. Обратная связь по релевантности

  • Смешанные (гибридные) системы. Метапоисковые системы. Примеры

  • Составные части дескрипторных информационно-поисковых языков

  • Составные части ИПС. Системные взаимосвязи между элементами ИПС

  • Сущность документального информационного поиска. Понятие релевантности

  • Семантические языки

  • Технология и режимы функционирования ИПС. Двухконтурные ИПС

  • Типология поисковых систем в Интернет

  • Фактографические ИПС

  • Функционально-структурная схема ИПС. Функциональные подсистемы

  • Язык запросов ИПС «Altavista». Интерфейс представления результатов поиска

  • Язык запросов ИПС «Google». Интерфейс представления результатов поиска

  • Язык запросов ИПС «Апорт». Интерфейс представления результатов поиска

  • Язык запросов ИПС «Рамблер». Интерфейс представления результатов поиска

  • Язык запросов ИПС «Яндекс». Интерфейс представления результатов поиска

  • Языки запросов современных информационно-поисковых систем. Сравнительный анализ

  • Языки запросов. Поисковые предписания.


2.6. Распределение часов курса по темам
и видам работы





п/п


Наименование тем
и разделов


Всего

(ч)

Аудиторные
занятия (ч)

В том числе


Самостоятельная работа

Лекции

Семи-нары

1

Основы информационного поиска

10

6



4

2

Документальные ИПС

8

4



4

3

Фактографические ИПС

6

2



4

4

Лингвистическое обеспечение информационного поиска


14


6





8

5

Функционирование и эксплуатация ИПС

8

4



4

6

Информационный поиск
в Интернет

20

8



12

7

Настоящее и будущее информационного поиска

8

4



4




ИТОГО:

72

34




40
  1   2   3   4



Скачать файл (410.5 kb.)

Поиск по сайту:  

© gendocs.ru
При копировании укажите ссылку.
обратиться к администрации