Волчков
точка ру



Домен или IP:

Мой IP
  Обмен валют
  WHOIS
 
  Доменные
новости
  Новости Сети
  Самые дорогие доменные имена
  Самое длинное доменное имя Рунета
  Список регистраторов домена RU
  АКЦИЯ
  Энциклопедия контента
 
 
 
  В закладки
  Стартовой
 




В МГУ родилась поисковая система Nigma.Ru
13.04.2005 02:48:22

Научный коллектив, состоящий из студентов и аспирантов факультетов ВМиК и психологии МГУ им.М. В. Ломоносова, разработал поисковая система Nigma.Ru, которая была официально запущена в статусе альфа-версии.

Несмотря на то, что работы над поисковой системой продолжаются лишь 2,5 месяца, членами команды уже разработаны оригинальные алгоритмы ранжирования результатов, полученных от набора поисковых систем, с поддержкой русской морфологии и двухуровневая кластеризация.

Морфология реализована через отсылку в поисковые системы дублирующих запросов, в которых приведены все распространенные морфологические формы запрашиваемых слов. При этом, в отличие от имеющихся реализаций русской морфологии для поисковых систем, предлагаемый алгоритм не сокращает, а наоборот — увеличивает количество найденных документов, т.к. морфологически измененный запрос объединяется с исходным.

Релевантность также увеличивается, т.к. используются специальные алгоритмы объединения результатов. Позиция найденной ссылки в результатах поиска отображается в виде «Поисковая система: позиция» (например, «Google: 5» означает, что ссылка находится на пятом месте в поисковой системе Google), а ссылки от морфологически измененных запросов — в виде «Поисковая система-M: позиция» (например, «Google-M: 10» — десятая ссылка в морфологически измененном запросе).

Результаты поиска объединяются с помощью специального алгоритма, причем только те результаты, которые Nigma.Ru успевает получить от поисковых систем за 1,5 секунды (в очень редких случаях — за 5 секунд). Соответственно, алгоритм не выделяет какие-то поисковые системы таким образом, что результаты поиска от них имеют большую значимость, чем от других, т.к. нет гарантии, что за это время система успеет обработать от них результаты. Вместо этого, для их объединения используется статистическая информация о русском интернете, такая, как посещаемость (на базе публичных счетчиков) и индекс цитируемости сайтов. Кроме того, учитываются другие специфичные для российского Интернета и русского языка особенности при объединении результатов.

В итоге, на подавляющее большинство поисковых запросов Nigma.Ru выдает на порядок больше найденных сайтов, чем, например, при простом поиске на сайте Google.Ru. Для того, чтобы пользователь не запутался в этих результатах, они группируются в так называемые «кластеры». Каждый кластер — это группа сайтов, относящихся, по мнению поисковой системы, к общей тематике. Научная группа решила использовать частотную кластеризацию по ключевым словам, поэтому названия кластеров — это тоже ключевые слова, которые пользователь может использовать для расширения своего запроса. В свою очередь, т.к. количество найденных кластеров также зачастую очень велико, интеллектуальный алгоритм объединяет кластеры в иерархию (пока — двухуровневую), которая позволяет представить их в более компактном виде.

Например, введя очень общий запрос «новости», на который поисковая система Nigma.Ru выдает порядка полумиллиарда документов, в левой колонке вы видите самые популярные темы новостей, которые встречаются в интернете. Нажав на тему (например, «спорт»), вы получите примеры новостных ресурсов, которые освещают эту тему. Если вы хотите получить больше ресурсов о новостях спорта, нужно нажать на «Расширить запрос» — тогда система выдаст более двух миллионов ссылок о новостях спорта. Они, в свою очередь, тоже отклассифицированы по темам — есть футбол, хоккей и т.п.

Работа научной группы в части кластеризующих алгоритмов находится в начальной стадии, и ее участники планируют продолжать ее совершенствование. В ближайшее время поисковая система будет расширена экспертными системами, психологическими тестами, системами поведенческого анализа, и другими методами, базирующимися на таких алгоритмах искусственного интеллекта как искусственные нейронные сети, генетические алгоритмы, алгоритмы нечеткой логики и т.п. Исследования группы имеют научный характер, поэтому, после того как будет создана стабильная версия кода, планируется опубликовать его исходные тексты. / Вебпланета



<<Назад

Материалы по теме:
18.05.2007 00:01:23 Apple I. История — подробно и с фотографиями
16.01.2006 14:20:44 Европа создает свой Google
16.01.2006 13:45:00 Golden Telecom набирается мужества продать «Апорт»
30.12.2005 22:55:02 Mail.Ru поставила поиск от «Яндекса»
22.12.2005 18:58:28 Открыта «Рекламная сеть Яндекса»
Все новости по теме

Отзывы (0)

Добавить отзыв






Новости Сети
« апрель 2005 »
пн   4 11 18 25
вт   5 12 19 26
ср   6 13 20 27
чт   7 14 21 28
пт 1 8 15 22 29
сб 2 9 16 23 30
вс 3 10 17 24
Заголовки всех новостей

© 2000 Volchkov.ru