Logo GenDocs.ru

Поиск по сайту:  

Загрузка...

Информационный поиск - файл 1.docx


Информационный поиск
скачать (59.4 kb.)

Доступные файлы (1):

1.docx60kb.16.12.2011 00:21скачать

содержание
Загрузка...

1.docx

Реклама MarketGid:
Загрузка...
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ

Государственное образовательное учреждение

высшего профессионального образования


РЕФЕРАТ ПО ДИСЦИПЛИНЕ «ИНТЕЛЛЕКТУАЛЬНЫЕ ИНФОРМАЦИОННЫЕ СИСТЕМЫ»

Тема: Информационный поиск в среде Интернет

Выполнил:


Проверил:

2011

ОГЛАВЛЕНИЕ


 3

ВВЕДЕНИЕ 4

 5

1. ИНФОРМАЦИОННЫЙ ПОИСК 6

2. СРАВНИТЕЛЬНЫЙ АНАЛИЗ СИСТЕМ ИНФОРМАЦИОННОГО ПОИСКА 7

3. СОВЕРШЕНСТОВАНИЕ ИНФОРМАЦИОННОГО ПОИСКА 9

^ 4. МАШИНЫ ПОИСКА 10

4.1.Поисковая машина GoGo.ru 12

4.2. Поисковая машина Webalta 13

 15

ЗАКЛЮЧЕНИЕ 16

 17

БИБЛИОГРАФИЧЕСКИЙ СПИСОК 18


^



ВВЕДЕНИЕ



Задачи информационного поиска являются предметом научных исследований уже несколько десятков лет.

Еще не так давно исследования в этой области относились к сфере научных интересов относительно узкой группы специалистов. Однако бурное развитие Интернет кардинально изменило ситуацию. Оно не только привлекло внимание к области информационного поиска, но также сильно расширило список рассматриваемых задач. Сегодня исследования в этой области посвящены не только вопросам индексирования и поиска в коллекции текстовых документов, но также и моделированию, задачам классификации и категоризации документов, архитектурам поисковых систем, вопросам визуализации данных и интерфейсам пользователя, языкам запросов и т.п.

В настоящее время Интернет является всемирным хранилищем информации практически по всем аспектам жизни человечества. Доступ к этой информации в связи с экспоненциальным ростом объема Интернет-ресурсов становится все более сложным и трудоемким с точки зрения поиска и анализа информации. [1]
^



1. ИНФОРМАЦИОННЫЙ ПОИСК



Информационный поиск — это задача поиска документов, отвечающих потребностям пользователя в информации. Наиболее широко известными примерами систем информационного поиска являются поисковые машины World Wide Web.

Пользователь Web может ввести в приглашении поисковой машины запрос и получить список подходящих страниц. Для систем информационного поиска (называемых сокращенно системами ИП) применяются перечисленные ниже характеристики:

1. Определение коллекции документов. В каждой системе должно быть принято определенное решение о том, что рассматривается в ней как документ — отдельный абзац, страница или многостраничный текст.

2. Способ формулировки запроса на языке запросов. Запрос указывает, какая информация требуется пользователю. Язык запросов может предусматривать лишь возможность составления списка слов, такого как [AI book], или может позволять задавать сочетание слов, которые должны быть расположены близко друг от друга, как в запросе [ "AI book" ]; он может содержать логические операторы, как в запросе [AI AND book]; а также включать операторы, отличные от логических, как в запросе [AI NEAR book] или [AI book SITEiwww.aaai.org].

3. Результирующий набор. Таковым является подмножество документов, которые система информационного поиска определяет как релевантные данному запросу. Под словом релевантный подразумевается вероятно полезный (согласно конкретным информационным потребностям, сформулированным в запросе) для того лица, которое сформулировало запрос.

4. Способ представления результирующего набора. Он может быть настолько простым, как ранжированный список названий документов, или настолько сложным, как вращающаяся цветная карта результирующего набора, спроектированная на трехмерное пространство.

Самые ранние системы информационного поиска действовали на основе ^ булевой модели ключевых слов. Каждое слово в коллекции документов рассматривалось как булева характеристика, которая является истинной применительно к данному документу, если соответствующее слово встречается в документе, и ложной в противном случае. В таком случае язык запросов представляет собой язык булевых выражений, заданных на характеристиках. Документ считается релевантным, только если соответствующее выражение принимает истинное значение.



Преимуществом такой модели является то, что ее несложно описать и реализовать. Но она имеет некоторые недостатки. Во-первых, степень релевантности документа измеряется одним битом, поэтому отсутствуют руководящие данные, на основании которых можно было бы упорядочить релевантные документы для презентации. Во-вторых, булевы выражения могут оказаться непривычными для пользователей, не являющихся программистами или логиками. В-третьих, задача формулировки подходящего запроса может оказаться сложной даже для квалифицированного пользователя. Предположим, что предпринимается попытка выполнить запрос [информация AND поиск AND модели AND оптимизация], что приводит к получению пустого результирующего набора. После этого осуществляется попытка выполнить запрос [информация OR поиск OR модели OR оптимизация], но если он возвращает слишком большой объем результатов, то нелегко определить, какую попытку следует предпринять после этого.

В большинстве систем информационного поиска используются модели, основанные на статистических сведениях о количестве слов (а иногда и другие характеристики низкого уровня). Основная идея состоит в том, что после формулировки некоторого запроса требуется найти документы, которые с наибольшей вероятностью будут релевантными по отношению к нему. Иными словами, необходимо вычислить следующее значение вероятности:

P(R=true\D,Q),

где D— документ; Q— запрос; R — булева случайная переменная, обозначающая релевантность. После получения этого значения можно применить принцип ранжирования вероятностей, который указывает, что если результирующий набор должен быть представлен в виде упорядоченного списка, это следует сделать в порядке уменьшения вероятности релевантности.

^

2. СРАВНИТЕЛЬНЫЙ АНАЛИЗ СИСТЕМ ИНФОРМАЦИОННОГО ПОИСКА



Важная проблема состоит в том, как оценить показатели работы рассматриваемой системы информационного поиска. Был проведен эксперимент, в котором системе предъявляется ряд запросов, а результирующие наборы оцениваются с учетом суждений людей о релевантности полученных результатов. По традиции при такой оценке применяются два критерия: полнота выборки и точность. Было предположено, что некоторая система информационного поиска возвратила результирующий набор, 

относящийся к одному запросу, применительно к которому известно, какие документы являются и не являются релевантными, из совокупности в 100 документов. Релевантный набор содержит 30 документов в результирующем наборе и 20 в не результирующем наборе. Не релевантный набор содержит 10 документов в результирующем наборе и 40 в не результирующем.

Показатель точности измеряет долю документов в результирующем наборе, которые действительно являются релевантными. В данном примере точность составляет 30/(30+10)=0,75. Относительное количество ложных положительных оценок равно 1-0,75=0,25. Показатель полноты выборки измеряет долю всех релевантных документов в коллекции, которые находятся в результирующем наборе. В данном примере полнота выборки составляет 30/(30+20)=0,60. Относительное количество ложных отрицательных оценок равно 1-0,60=0,40. Вычисление показателя полноты выборки в очень большой коллекции документов, такой как World Wide Web, становится сложным, поскольку отсутствует удобный способ проверки каждой страницы в Web на релевантность. Самое лучшее решение, которое может быть принято в данном случае, состоит в том, чтобы оценивать полноту выборки путем исследования определенной части документов или совсем игнорировать показатель полноты выборки и оценивать коллекцию документов только по показателю точности.

В некоторых системах может происходить потеря точности из-за увеличения полноты выборки. В крайнем случае в системе, которая возвращает в составе результирующего набора каждый документ из коллекции документов, гарантированно достигается полнота выборки, равная 100%, но точность становится низкой. Еще один вариант состоит в том, что система может возвращать единственный документ и показывать низкую полноту выборки, но достигать высокой вероятности получения 100%-ной точности. Один из способов достижения компромисса между точностью и полнотой выборки состоит в использовании кривой ROC. Аббревиатура "ROC" сокращенно обозначает показатель "рабочая характеристика приемника" (receiver operating characteristic), который требует дополнительных пояснений. Он представляет собой график, на котором относительное количество ложных отрицательных оценок измеряется по оси у, а относительное количество ложно положительных оценок измеряется по оси х, что позволяет находить различные точки компромиссов. Площадь под этой кривой представляет собой суммарную оценку эффективности системы информационного поиска.

Показатели полноты выборки и точности были определены в то время, когда задачи информационного поиска решались главным образом библиотекарями, которые 

были заинтересованы в получении исчерпывающих, научно обоснованных результатов. В настоящее время большинство запросов (количество которых измеряется сотнями миллионов в сутки) выполняется пользователями Internet, которых в меньшей степени интересует исчерпывающая полнота ответов и требуется лишь немедленно найти ответ. Для таких пользователей одним из наиболее приемлемых критериев является средний обратный ранг первого релевантного результата. Это означает, что если первый результат, полученный системой, является релевантным, он получает применительно к данному запросу оценку 1, а если первые два результата не релевантны, а третий является таковым, он получает оценку 1/3. Еще одним критерием служит время ожидания ответа, который позволяет измерить продолжительность времени, требуемую для поиска желаемого ответа на поставленный пользователем вопрос. Этот показатель лучше оценивает те характеристики систем информационного поиска, которые действительно хотелось бы точно измерить, но обладает одним недостатком, связанным с тем, что для проведения каждого нового эксперимента приходится привлекать новую партию испытуемых субъектов — людей.

^

3. СОВЕРШЕНСТОВАНИЕ ИНФОРМАЦИОННОГО ПОИСКА



В большинстве систем информационного поиска используются средства приведения к нижнему регистру, во многих дополнительно применяется алгоритм выделения основы. Применение указанных средств обычно позволяет добиться небольшого увеличения полноты выборки (для английского языка такое увеличение составляет порядка 2%). Но использование таких средств может привести к снижению точности.

Следующим этапом совершенствования является распознавание синонимов. Как и при использовании средств выделения основы, это позволяет добиться небольшого увеличения полноты выборки, но при непродуманном использовании этих средств возникает опасность снижения точности.

Во многих системах информационного поиска в определенной степени используются двухсловные сочетания, но полная вероятностная модель двухсловных сочетаний реализована лишь в немногих системах. Кроме того, для исправления опечаток, как в документах, так и в запросах могут использоваться процедуры коррекции орфографических ошибок.



В качестве последнего усовершенствования можно указать, что повышение качества функционирования системы информационного поиска достигается также с помощью использования метаданных — данных, внешних по отношению к тексту самого документа. К примерам таких данных относятся ключевые слова, подготовленные разработчиком документа, и гипертекстовые ссылки между документами. [2]

^

4. МАШИНЫ ПОИСКА



Пространство WWW содержит много документов, причем не только тексты, но и графику, видео, звук и т. д. Гипертекстовые связи между Web-документами и/или их частями отражают отношения между отдельными информационными фрагментами, представленными в сети. Броузеры, поддерживающие HTML-стандарты, обеспечивают представление материалов пользователям и навигацию по ссылкам для доступа к документам, распределенным по сети.

Машины поиска, по-видимому, являются в Интернете самым распространенным и доступным ресурсом для извлечения информации. При этом, как правило, используются два типа сетевых роботов: спайдеры (spiders) и индексы (indexes). Спайдеры, иногда называемые также ботами (bots, от робот-robots), перемещаются по Web от сайта к сайту. Некоторые из них перемещаются от сервера к серверу беспорядочно, другие используют приоритеты, такие, например, как посещаемость сайта. Оказавшись на сайте, спайдер посылает отчет поисковой машине и продолжает индексирование. Индексы используются для ускорения поиска и сбора информации. Некоторые поисковые механизмы индексируют содержание страниц полностью, другие - только отдельные их части, такие, например, как заголовки документов.

Основными характеристиками машин поиска являются язык запросов пользователя, представление исходных и выходных документов, время индексации и поиска, объем индекса. Существенной характеристикой машин поиска является также качество представления результатов.

Как правило, поисковые машины обеспечивают интерфейс типа меню, с помощью которого пользователь может скомпоновать запрос на поиск информации, используя ключевые слова и/или фразы и логические связки И-ИЛИ-НЕ. Большинство машин поиска находят огромное количество «релевантных» страниц по запросу пользователя. Каждый найденный документ обычно ранжируется по степени его корреляции с запросом. Релевантность каждого документа оценивается с помощью различных технологий, 

например учета частоты появления на странице искомых слов. Некоторые поисковые механизмы используют дополнительно другие факторы, такие как частота посещения страницы и/или близость расположения друг к другу искомых терминов.

Типичную организацию машин поиска можно рассмотреть на примере системы WebCrawler (рис. 1.), разработанной в университете Вашингтон (Сиэтл, США).
Рис. 1. Общая архитектура системы WebCrawler

WebCrawlcr начинает процесс поиска новых сайтов с известных ему документов и переходит но ссылкам на другие страницы Он рассматривает сетевое пространство как ориентированный граф и использует алгоритм обхода графа, работая в следующем цикле:

  • найти новый документ;

  • отмстить документ как извлеченный;

  • расшифровать ссылки с этого документа;

  • проиндексировать содержание документа.

Поисковый механизм работает в двух режимах: поиск документов в реальном времени и индексирование документов.

Этим сервисом определяется, какие документы и какие типы документов нужно найти и извлечь из сети. Звуковые файлы, картинки, двоичные файлы и т.п. — не извлекаются. Ошибочно извлеченные файлы будут проигнорированы на стадии индексирования. В режиме индексирования система строит индекс информации из найденных документов, в режиме поиска — находит документы, максимально соответствующие запросу пользователя.

Агенты в системе WebCrawler отвечают за извлечение документов из сети. Для выполнения этой работы поисковый механизм находит свободного агента и передает ему задание на поиск. Агент приступает к работе и возвращает либо содержание документа, либо объяснение, почему данный документ нельзя доставить. Агенты запускаются как отдельные процессы, что позволяет изолировать основной процесс работы системы от ошибок и проблем с памятью. Одновременно используется до 15 агентов.

В базе данных хранятся метаданные документов, связи между документами, полнотекстовый индекс, другая служебная информация. База обновляется каждый раз, когда поступает новый документ. Для отсечения семантически незначимых слов 

используется стоп-словарь, словам из документа приписывается вес, равный частоте их появления в данном тексте, деленной на частоту появления слова в ссылках на другие документы. Такой индекс позволяет быстро находить по заданному слову ссылки на документы его содержащие. Целиком URL (ссылки на документы в сети) не запоминаются. Вместо этого вся нужная информация помещается в специальные объекты. Каждый объект запоминается в отдельном В-дереве: документы в одном, серверы в другом, а ссылки в третьем. Такое разделение данных позволяет быстро определить неиспользуемые или часто используемые серверы.

Аналогичным образом устроены и другие машины поиска. Характеризуя их в целом, можно отметить, что это глобальные поисковые механизмы, охватывающие до 90% ресурсов Интернета. Они не могут настраиваться на предпочтения пользователя и не имеют средств анализа информации, а их сетевым роботам становится все труднее справляться с постоянным ростом ресурсов Интернета. Главной задачей машин поиска, по сути, является индексация ресурсов глобальной сети, а также поддержка и расширение соответствующих баз данных. Фактически в базах данных машин поиска хранится информация о том, где и что лежит в сети. Поэтому можно считать, что существующие машины поиска обеспечивают низкоуровневый сервис для клиентских поисковых программ более высокого уровня. [1]

Рассмотрим более подробно поисковые машины российского Интернета такие, как GoGo.ru и Webalta.


^

4.1.Поисковая машина GoGo.ru



Поисковый алгоритм данной машины поиска был полностью разработан программистами компании. Впервые в российском Интернете на проекте реализован поиск по видео.

Компания Mail.Ru создала собственную поисковую технологию, на разработку которой было потрачено более 1 года. Вложения в проект составили более 700 тыс. долларов. Проект вышел на рынок под независимым брендом - GoGo.Ru (http://www.gogo.ru).

Цель проекта – создание поискового сервиса нового поколения, что, по мнению разработчиков, предполагает несколько важных особенностей:



максимально доступный, визуально привлекательный, удобный и понятный интерфейс (дружелюбный дизайн, крупный шрифт, возможность получить дополнительную информацию с сайта, не переходя на него и т.п.);

специальные инструменты, позволяющие пользователю осуществлять фильтрацию контента в зависимости от его потребностей;

равные возможности для поиска различных типов информации – текстов, фото, видео, вопросов и ответов на естественном языке и т.п.

GoGo.Ru представляет собой попытку не только обеспечить высокую релевантность результатов поиска, но и предугадать текущие и потенциальные нужды пользователя и его представления об идеальном поисковом сервисе.

Разработчики GoGo.Ru предложили новый подход в работе с поисковой информацией - помимо традиционной сортировки при помощи общих алгоритмов определения релевантности, пользователю предоставляется возможность отфильтровать результаты поиска в зависимости от его целей.

На первом этапе в текстовом поиске существует 3 фильтра, подразделяющих источники информации на 3 типа: информационные, коммерческие и пользовательские (блоги, форумы). Например, если пользователь ищет информацию справочного характера, то логично будет воспользоваться вкладкой «информационные», если его интересуют в первую очередь товарные предложения – скорее подойдет раздел «коммерческие», ну а для того, чтобы узнать мнение других пользователей о чем-то лучше выбрать «блоги, форумы». При этом принадлежность какого-либо источника к тому или иному типу определяется системой автоматически.

Еще одним инновационным шагом стала разработка первого в России поиска по видеороликам. На данный момент поисковый механизм GoGo.Ru индексирует видео на наиболее популярных российских видеохостингах – Видео@Mail.Ru, Rutube.ru, Loadup.ru и Rambler Vision, в дальнейшем в список войдут другие популярные сайты для хранения видео, в том числе и западные.

Поиск по изображениям также реализован с применением инновационного подхода – при поиске картинок GoGo.Ru пытается отделять фотографии от других картинок и позволяет выбрать необходимый размер изображения.

И, наконец, GoGo.Ru интегрирован с крупнейшим в России социальным поиском – проектом Ответы@Mail.Ru и позволяет осуществлять полнотекстовый поиск по контенту проекта, на текущий момент накопившему базу знаний, составляющую около 45 миллионов ответов на 5 миллионов вопросов. Объем первоначальной базы документов, 

индексируемых GoGo.Ru, составляет более полутора миллиардов единиц. В дальнейшем эта база будет постоянно увеличиваться.


^

4.2. Поисковая машина Webalta



ОАО «Вебальта» — российская IT-компания. Основана 25 августа 2005 года. Компания специализируется на разработке инновационных решений в области поиска информации, интернет-рекламы и развлечений.

Одной из уникальных инноваций, созданных специалистами компании, является публикуемый Webalta индекс Уровня доверия к сайтам. Помимо входящих ссылок и цитат, индекс учитывает и множество других факторов, вплоть до времени регистрации доменного имени и репутации компании, на чьих серверах физически размещены страницы сайта.

Создание и обкатка поисковой машины велись на редкость интенсивно. Разработкой занимались специалисты с большим опытом успешных интернет-проектов. Менее чем за год компании удалось подготовить к выходу в свет продвинутый поисковик общего назначения. При этом финансирование проекта на 100% осуществлялось самой компанией.

Сервис был запущен в конце 2005 года. Компанией было сделано немало громких заявлений, однако по настоящему составить сколько-нибудь заметную конкуренцию ни Yandex, ни Rambler, ни Google у Webalta пока не получается. Трафик с этой поисковой системы не превышает одного процента.

И этому есть свои причины.

Во-первых, Webalta не очень популярна. Многие пользователи даже не подозревают о ее существовании. То есть, необходима более агрессивная рекламная политика.

Во-вторых, размер индекса у Webalta очень маленький. То есть, велика вероятность, что самый необходимый пользователю сайт не был проиндексирован. Соответственно, качество выдачи поисковых результатов хуже, чем у конкурентов.

Однако, несмотря не на что, Webalta не теряет надежды и пытается расширить свое влияние и популярность. Для этого используются различные способы и любые подходящие моменты.

Новая поисковая система - полностью российский проект. К тому же, "от и до" оригинальная разработка специалистов Webalta. Для повышения точности ответов на 

запросы пользователей использован целый ряд новшеств. Это и учёт русской морфологии, и новый механизм индексирования документов, и модернизированная процедура отбора и сортировки результатов. Высокая частота обновления поисковой базы обеспечивает актуальность найденной с помощью Webalta информации. До 6 июля 2006 года поисковая система Webalta находилась в стадии закрытого тестирования, в котором принимали участие более 10 000 человек.

На момент перехода к публичному тестированию в поисковике Webalta доступно для поиска 227 089 270 документов, общим объёмом 6 181Гб.
^



ЗАКЛЮЧЕНИЕ



Интерес к информационному поиску в сети Интернет вызван основной задачей информационного поиска, а именно помощью пользователю найти ту информацию, в которой он заинтересован. Из имеющегося множества информации требуется отобрать подмножество, соответствующее информационной потребности пользователя, обычно выражаемой неким набором ключевых слов. Бурное развитие сети Интернет не только привлекло внимание к области информационного поиска, но также сильно расширило список рассматриваемых задач.

Таким образом, для решения задачи информационного поиска за последнее время были реализованы новые алгоритмические и программные решения. Математический аппарат задачи информационного поиска претерпел развитие от использования методов булевой алгебры до статистических методов, что значительно улучшило эффективность разработки запросов. Современные средства информационного поиска позволяют пользователю быстро получить доступ к необходимой информации. Дальнейшие совершенствования связаны с развитием методов искусственного интеллекта.
^



БИБЛИОГРАФИЧЕСКИЙ СПИСОК



1. Гаврилова, Т.А. Базы знаний интеллектуальных систем [Текст] / Т.А. Гаврилова, В.Ф. Хорошевский – СПб.: Питер, 2001. – 384 с.: ил.

2. Рассел, С. Интеллектуальные системы [Текст] / С. Рассел и др. – М.: Вильямс, 2007. – 1408 с.: ил.

3. Поисковики | машины поиска | индексация // Режим доступа: http://www.novice.ws/search.htm

4. Поиск информации в Интернете – Викиучебник // Режим доступа: http://ru.wikibooks.org/wiki/Поиск_информации_в_Интернете


Скачать файл (59.4 kb.)

Поиск по сайту:  

© gendocs.ru
При копировании укажите ссылку.
обратиться к администрации