Волчков
точка ру



Домен или IP:

Мой IP
  Обмен валют
  WHOIS
 
  Доменные
новости
  Новости Сети
  Самые дорогие доменные имена
  Самое длинное доменное имя Рунета
  Список регистраторов домена RU
  Энциклопедия контента
 
 
 
  В закладки
  Стартовой
 




Раздел: Новости Сети за 14.04.2005

14.04.2005 22:56:58: Елена Колмановская о журналистской этике и интернет-статистике

Главный редактор компании «Яндекс» Елена Колмановская дала комментарий нашему изданию касательно информации об особенностях статистики «Яндекса», приведенной в интервью Максимом Зотовым.

Я с удовольствием расскажу читателям «Вебпланеты» о том, как «Яндекс» считает статистику. Однако прежде хочу дать общий комментарий. Я наивно предполагала, что журналистская этика не позволяет публиковать обвинения в чей-либо адрес, не попытавшись получить ответ обвиняемого — в той же статье. Здесь же анонимный журналист Вебпланеты тщательно пытался спровоцировать интервьюируемого на прямые выпады против нашей компании. Хочу поблагодарить Максима, который не поддался на провокацию, и который далее в дискуссии признал свою гипотезу ошибочной. И хочу выразить надежду, что подобный способ создания статей не является типичным для «Вебпланеты».

Теперь о статистике.

Уникальные посетители в «Яндексе» вычисляются как сумма хостов без кук плюс уникальные установленные куки. Насколько нам известно, такая методика в основном применяется на всех других счетчиках.

По соотношению людей/хостов можно с достаточной степенью уверенности констатировать, что в РУНЕТе очень велико количество сильно неперсональных адресов (диалапы и НАТ’ы), когда множество пользователей «скрывается» за одним IP-адресом). По понятным причинам, это соотношение больше для популярных ресурсов.

Представьте: за одним компьютером по очереди работают пять человек, два из них ходят на ресурс Васи Пупкина, четыре — на Яндекс. В качестве легкого самостоятельного упражнения вычислите соотношение уникальных посетителей к хостам для обоих ресурсов.

Конечно, пока не будет выработан общепринятый независимый механизм подсчета посетителей, подозрения будут возникать в головах подозрительных людей. Мы давно говорим, что анализ интернет-аудитории надо проводить панельными исследованиями с использованием технических устройств, позволяющих измерять поведение людей, а не их браузеров. Правда, это уже не имеет отношения к спорам про хосты и куки. / Вебпланета


Материалы по теме:
30.08.2006 12:41:10 Google объединяется с WebMoney
15.02.2006 16:47:07 «Бегун» тестирует pay-per-call
02.09.2005 04:47:12 Как Аркадий Волож сервис контекстной рекламы запускал
27.05.2005 01:55:50 В России платят 6 центов за заражение
27.05.2005 01:51:59 Елена Воронина о вчерашних проблемах на MSK-IX
Все новости по теме

Отзывы (0)


14.04.2005 22:31:03: Максим Зотов об интернет-счетчиках

«Вебпланета» публикует интервью с программистом Максимом Зотовым, создателем таких популярных сервисов статистики, как Top.Mail.Ru и LiveInternet.Ru.

Максим, вопрос простой, но в тоже время сложный: какой счетчик считает «правильно» — Top.Mail.Ru или Rambler`s Top100? Когда заходит речь о том, почему статистические данные, скажем, Lenta.Ru, в Top.Mail.Ru показывают одно значение, а в Rambler`s Top100 — совершенно другое, в Mail.Ru говорят: счетчик «Рамблера» считает неправильно; тоже самое говорят в «Рамблере» — это в Mail.Ru кривой счетчик. В чем причина?

Как правило, основная причина в том, что делается некорректное сравнение. Обычно же при равных условиях показатели разных систем приблизительно совпадают. А вот если отличия большие, то дело тут скорее всего не в «кривости» какого-то счетчика, а в ошибках пользователя. Наиболее вероятная причина несовпадений — коды счетчиков разных систем установлены на разных наборах страниц, либо в разных местах страницы: код одного счетчика установлен в начале страницы, а второго — в конце (например, в случае с lenta.ru — ситуация именно такая, счетчик Rambler’s Top100 в начале страницы, а счетчик Top.Mail.Ru — в самом конце, и, конечно, до счетчика Top.Mail.Ru загрузка может иногда не доходить).

Также нужно не забывать сравнивать одни и те же параметры, например, в случае с Rambler’s Top100 нужно смотреть статистику по всему сайту, а не по главной странице, поскольку остальные системы статистики ведут учет посещаемости всего сайта. Бывает, что некоторые системы используют одинаковые названия для немного разных параметров, например, в Top.Mail.Ru при учете «хостов» учитываются адреса посетителей за прокси-серверами, в других системах — нет, поэтому хостов по Top.Mail.Ru обычно больше процентов на 10–20, чем хостов по другим системам.

При сравнении разных систем прежде всего следует обращать внимание на самый простой для измерения параметр: просмотры страницы («хиты» или «визиты» в разных терминологиях). Потому что это всего лишь факт загрузки счетчика, и разночтения тут обычно непринципиальны и минимальны. Если отличия существенны, значит, нужно искать разницу в установке кодов счетчиков на страницах.

Разночтения в учете уникальных посетителей связаны, в основном, с тем, что учет делается с помощью механизма cookies, а этот механизм может быть иногда выключен в браузере. В этом случае каждая из систем может по-своему определять уникальность пользователя, но все равно отличия будут незначительны: в пределах 2–5%. Например, LiveInternet и Top.Mail.Ru игнорируют таких посетителей (от них засчитываются только просмотры/визиты), а Rambler’s Top100 или SpyLog используют IP-адреса для оценки уникальности таких браузеров, и у них количество посетителей может быть больше на пару процентов. В отчете «Подробная статистика» Rambler выводит показатель «в том числе посетителей с cookie», вот это число должно совпадать с количеством посетителей по LiveInternet или Top.Mail.Ru.

Средние дневные показатели по данным пяти последних рабочих дней в статистике «Яндекса» показывают 2,7 млн. посетителей при 716 тыс хостах. Как такое может быть? По-моему, да и не только по-моему, это просто нереально.

Да, количество выглядит существенно завышенным. Например, возьмем статистику Rambler’s Top100 по своему же поиску. Смотрим подробную статистику за вчера, 12 апреля:

— уникальных адресов по всему сайту: 552 380 
— уникальных посетителей: 1 378 087 
— соотношение 1 к 2.5.

При более менее одинаковых по порядку объемах аудиторий это соотношение должно быть справедливо и для посетителей «Яндекса». Поэтому более реальным выглядит число уникальных посетителей около 1,8 млн. Максимум — 2 миллиона. Впрочем, есть одно предположение, почему такое может быть.

Какое?

По данным статистики LiveInternet, в браузерах 1,8–2% посетителей выключена поддержка cookies. Допустим, страницу «Яндекса» загружает посетитель с таким браузером. Сервер «Яндекса» видит, что cookie у браузера нет, и пытается ее установить. Из-за особенностей http-протокола сразу же проверить, установилась ли cookie, сервер не может (только при следующем запросе к сайту браузер пошлет серверу установленную cookie). Поэтому он просто пишет в свой лог, что пришел новый посетитель и ему выдана такая-то кука.

Теперь этот же посетитель загружает еще одну страницу «Яндекса» (допустим, результаты поиска), сервер видит, что куки нет, опять считает посетителя новым и выдает новую куку. То есть каждый просмотр страницы «Яндекса» таким посетителем считается просмотром от нового посетителя.

По статистике «Яндекса» видим, что в среднем делается 37,9 млн просмотров страниц в день (хитов). Если 2% просмотров от этих миллионов сделаны браузерами без поддержки cookies, то получаем (37,8*0,02=0,76) как раз те лишние 760 тыс посетителей.

То есть, когда Аркадий Волож, или кто-то еще из «Яндекса», говорит, что у нас столько-то посетителей в неделю, на самом деле это не так? Или как?

Если мое предположение о способе учета посетителей верно (то есть уникальность оценивается по выданной куке, а не по принятой), то да, на самом деле не так. И что касается недельной аудитории, то доля лишних посетителей еще больше. / Вебпланета


Материалы по теме:
12.03.2007 10:54:23 «Серебро» Макса Фадеева: сенсационные подробности
21.01.2006 12:27:31 «Дневной Дозор» вербует Иных через Интернет
09.09.2005 01:19:25 Как Александр Малис джинсу тачал
02.07.2005 03:23:54 Как Носик с Рыковым из-за Ходорковского ругались
28.05.2005 00:59:05 Rambler приглашает на диван
Все новости по теме

Отзывы (1)


14.04.2005 21:48:18: Виктор Лавренко: «Мы прежде всего создаем новые технологии»

Виктор Лавренко: «Мы прежде всего создаем новые технологии»

На вопросы «Вебпланеты» отвечает Виктор Лавренко, руководитель группы разработчиков проекта Nigma.Ru, в прошлом — вице-президент Mail.Ru по стратегии и финансам.

Виктор, расскажите подробно о вашем благотворительном фонде. Когда он был основан? Каковы его цели?

Формально фонд никогда не регистрировался, я просто являюсь выпускником ВМиК МГУ и, заработав немного денег, решил поделиться ими с родным университетом. Желание такое возникло еще в 2003 году. Университет, к сожалению, сказал, что принять денег от меня не может и предложил оказывать целевую поддержку — непосредственно студентам, а также я покупаю для факультета и своей кафедры кое-какое оборудование. Идея была моя, цель — дело в том, что когда я учился в МГУ, мне приходилось работать на трех работах, чтобы прокормиться. Соответственно, я решил помочь студентам, чтобы они могли больше времени уделять своей научной работе.

Кто спонсирует фонд?

Пока лично я, но проект Nigma.Ru поддерживают также еще и мои друзья.

Друзья из Mail.Ru?

У меня много друзей. :-)

Будете регистрировать фонд или нет? Если да, как он будет называться?

Думаю, что нет, так как Антон Носик пытался, а потом жаловался на бюрократов, на сколько я помню. Это лично моя благотворительная деятельность и я не думаю, что мне хочется, чтобы государство участвовало в этом в качестве посредника.

Какие проекты, помимо Nigma.Ru, поддерживает ваш фонд?

Мы поддерживали исследования в области изучения интеллекта млекопитающих (мышей и крыс), их взаимодействия с роботами.

Вы сказали «поддерживали». Почему прекратилась поддержка?

Просто студент, который этим занимался, уже защищает диплом и в дальнейшем исследований на эту тему не планирует, так как сейчас полностью занимается проектом Nigma.Ru.

Какие проекты вам интересно поддерживать? Что нужно сделать для того, чтобы вы обратили внимание на существующий проект или идею?

Я не «Яндекс», не могу поддерживать такое огромное количество проектов. Дело даже не в финансах, а в том, что поддержка должна быть по делу, потому что если поддержка — ни за что, это только развращает. Так что я не планирую сильно увеличивать количество проектов, а если и буду увеличивать — то, скорее всего, для этого нужно быть студентом факультета ВМиК МГУ, так как мне, опять-таки, проще понимать, на что идет эта поддержка — основное время я провожу на факультете.

Вы работали в компании Mail.Ru на должности технического директора, затем — в различных должностях — от директора по электронной коммерции, до вице-президента по стратегии и финансам. Почему вы ушли из Mail.Ru?

В марте месяце я серьезно увеличил свою долю в Mail.Ru — купил крупный пакет акций компании (крупный — по своим меркам), решил остаться в проекте Mail.Ru в качестве акционера. Дело в том, что я занимаюсь инвестициями и на Mail.Ru теперь смотрю как на очень удачный, но не единственно возможный для меня проект. Например, я удачно инвестировал в компанию AskJeeves, которая недавно была куплена пусть и с небольшой, но хорошей для меня премией (я инвестировал не только в акции, но и в деривативы этой компании). А чтобы заниматься инвестиционной деятельностью серьезно, нужно уделять этому много времени. Кроме того, у меня растет конфликт интересов в связи со всеми этими транзакциями.

Конфликт интересов где?

Конфликт интересов в том, что, используя инсайдерскую информацию из Mail.Ru, я могу принимать или не принимать каких-то инвестиционных и бизнес-решений. В России, на сколько помню, закон об инсайдерской информации еще не принят, но я стараюсь придерживаться общепринятых этических стандартов, даже если они пока не закреплены законодательно.

А если я тоже захочу купить акций Mail.Ru, как вы? Куда обращаться? И кто, вообще, может купить акции? Только Избранные?

Обращаться можно к акционерам компании, но как и во всех частных компаниях, другие акционеры будут иметь право преимущественного выкупа. То есть если вы договоритесь с акционером А о продаже такого-то количества акций за такую-то сумму, другой акционер компании Б может потребовать продажи ему этих акций по такой же цене (т.е. от А к Б), а не вам. Так что стороннему человеку акции купить можно, но это будет не очень просто.

Насколько известно, последние два года вы работали в частной инвестиционной компании, занимаясь инвестициями в русский фондовый рынок и в деривативы на американские ценные бумаги. Что можете сказать об IPO компании Rambler Media Group с точки зрения финансиста? Насколько оно своевременно? Сколько Rambler может привлечь? Какова капитализация компании по вашим прикидкам?

Я не могу прокомментировать IPO компании Rambler Media Group, так как их проспект был запрещен к распространению в России. Так что я не могу вам сказать о том, действительно ли Rambler стоит тех денег, которые просит. И, конечно, жалко, что «Рамблер» начал активность на бирже с того, что выпустил конфиденциальные отчеты — по идее, моими словами в данный момент должно было быть что-то вроде «я рад, что выходом „Рамблера“ на биржу, российский интернет становится более прозрачным» и т.д. Но момент выбран правильно — американские интернетовские голубые фишки, по моему мнению, оценены более чем справедливо, и, поэтому, компании второго эшелона, а, к тому же, с развивающегося рынка, имеют хороший потенциал роста.

А что можете сказать о Mail.Ru и «Яндексе»? Какова, на ваш взгляд, капитализация этих компаний?

Надеюсь, что справедливая цена акций Mail.Ru по меньшей мере в два раза выше, чем та, по которой я недавно купил акции. :-) О капитализации «Яндекса», к сожалению, тоже не могу рассуждать — все-таки я по-прежнему инсайдер рынка и знаю слишком много конфиденциальной информации. Но если предположить, что заявленная капитализация «Рамблера» в 170 млн является справедливой, то «Яндекс» стоит не менее 300 млн — исходя из большего оборота, премии за лидерство, гораздо более высокой прибыли. Если же инвесторы оценят «Рамблер» еще дороже, то и «Яндекс» также должен стоить гораздо дороже.

Недавно в газете «Ведомости» была опубликована статья о сделке по покупке 25% акций «Бегуна» компанией Rambler Media Group. Как вы думаете, Rambler действительно, наконец-то, заинтересовался рынком контекста, или же это что-то вроде пиара перед IPO? Ведь, насколько известно, переговоры о покупке «Бегуна» «Рамблером» имели место еще до того, когда он был продан «Финаму». Фактически получается, что, купив 25% «Бегуна», «Рамблер» переплатил несколько раз — год с лишним назад за эти деньги можно было купить весь «Бегун», что и сделали умные люди из «Финама».

Я не думаю, что за этот год капитализация «Бегуна» выросла быстрее, чем капитализация «Рамблера» (по крайней мере, существенно быстрее). А значит, факт того, что «Рамблер» не купил «Бегун» раньше — не был ошибкой. Сама же публикация информации о сделке — это нормально для IPO. Инвесторы должны знать, на что пойдут собранные от них деньги. Если на покрытие убытков — это мало кому понравится, сейчас инвесторы любят прибыльные компании. Соответственно, если деньги идут на покупку бизнесов, которые могут принести пользу «Рамблеру», перейдя под его контроль — это хорошо.

В пресс-релизе, приуроченном к открытию Nigma.Ru, сказано, что поисковая система была запущена при поддержке Mail.Ru. В чем заключается поддержка?

Поддержка заключается в технологической и другой помощи нашему проекту. За полтора года работы с собственным поиском специалисты Mail.Ru накопили интересный опыт, обмен которым с нашими молодыми специалистами приводит к хорошим результатам, которые смогут использовать обе стороны.

Как долго велись работы по созданию Nigma.Ru?

2.5 месяца — с середины-конца января 2005 года, но до этого, конечно, мы сильно продвинулись по технологиям искусственного интеллекта.

Существует мнение, что научные разработки в области искусственного интеллекта зашли в тупик. То есть, если кто-то говорит, что в его Программе, или Системе, или Машине содержатся элементы искусственного интеллекта, то он врёт. Что скажете?

Эта проблема хорошо описана в книге Geoffrey A. Moore «Crossing the Chasm». Действительно, технологии используются только новаторами и не очень распространены.

И все же, ваш проект декларирует себя как «интеллектуальная поисковая система», подразумевая, что вы используете технологии искусственного интеллекта для поиска. Значит ли это, что наш поисковик «думает», и чем он «умнее» других?

Для того, чтобы ответить на эти вопросы, прежде всего нужно разобраться, что же такое искусственный интеллект.

1. Искусственный интеллект = естественный интеллект внутри компьютера

Неспециалисты часто понимают под искусственным интеллектом нечто, что мы видели в фильме «Я, робот» — некоторое существо, которое мыслит так же как и мы. Попытки дать формальное определение искусственному интеллекту увы, наталкиваются на проблему, связанную с тем, что мы не можем дать определение интеллекту естественному; цитата из того же фильма:

Detective Del Spooner : You are a clever imitation of life… Can a robot write a symphony? Can a robot take a blank canvas and turn it into a masterpiece?

Sonny : Can you?

(Детектив Дел Спунер: Ты просто искусная имитация жизни… Может ли робот написать симфонию? Может ли робот взять чистый холст и превратить его в шедевр?

Робот Сонни: А вы можете?)

Кроме того, не совсем понятно, перефразировав слова Булгакова, зачем создавать искусственный интеллект, если любая баба может нарожать естественный интеллект в каждой подворотне?

Тем не менее, я считаю, что где-то через 30–50 лет можно будет моделировать процессы, происходящие при развитии человека (от момента оплодотворения яйцеклетки) на молекулярном уровне. А значит, внутри компьютера можно будет создать компьютерную модель человека, только вот, опять-таки — зачем?

2. Что сейчас есть искусственный интеллект

Для ученых, искусственный интеллект — это некоторое множество алгоритмов, на которое их вдохновило устройство человеческого мозга, эволюция и другие явления природы. А названия этих алгоритмов и даны в честь вдохновивших вещей. Ведь проще вместо, например, «аппроксимация вложенными линейными комбинациями методом стохастической оптимизации, базирующейся на параллельном поиске Парето-оптимального решения и т.д.» сказать «нейросети, обучаемые генетическими алгоритмами». Разумеется, никто никого не обучает, и нейроны в этой сети очень отдаленно похожи на те, что в коре головного мозга, и генетика тут несколько за уши притянута. Но ведь нас не смущает, что математики точку называют «точкой» — ведь мы прекрасно знаем, что точка (та, которую ставят в конце предложения) — имеет ненулевые размеры, что противоречит аксиомам планиметрии. Просто этот сложный математический объект (которому, кстати, так же как и искусственному интеллекту, со времен Гильберта уже и не пытаются дать определение) проще называть каким-то словом, которое более короткое и понятное для слушателей, чем набор аксиом, описывающих ее свойства.

Кроме того, искусственным интеллектом называют такое поведение программ, при котором их результаты выглядят так, как будто бы в их вычислении принимал участие человек (или другое мыслящее существо). Точно так же, как никого не смущает, что интерфейс Windows называют «многооконным» (мы-то с вами знаем, что окно — это такая штука, которая вмонтирована в наружную стену дома, имеет раму, стекло и т.д.), так же и роботом с элементами искусственного интеллекта называют собаку Айбо, которая умеет реагировать на слова, и имитирует поведение живой собаки.

Сколько человек работает над Nigma.Ru? Кто входит в научную группу?

В постоянном режиме в проекте работает 5 человек (вместе со мной), также нам помогает огромное количество людей своими советами и критикой.

На скольких серверах «живет» проект?

Вы знаете, к сожалению — ни на одном. Проект живет на виртуальном хостинге и мы совершенно не рассчитывали, что он получит такой общественный резонанс — сейчас проект еле-еле справляется с нагрузкой. Но раз он оказался так востребован среди пользователей, в данный момент мы переносим нашу поисковую систему на мощный выделенный сервер. Если не поможет — установим еще серверов.

Сколько поисковых запросов в сутки вы готовы обрабатывать сейчас?

Вот очень мало. Установим сервер — будет больше

Кем, по-вашему, будет востребована новая поисковая система?

Я считаю, что система будет востребована новичками, т.к. она сильно упрощает процесс формулирования запросов. Но и специалистам тоже будет небезынтересно ею пользоваться, т.к. размер базы, по которой в результате ищет система, очень большой.

Каков ее размер? Как часто она обновляется?

Обновляется она в зависимости от поисковиков (все-таки мы метапоиск), но мы собираемся в ближайшее время провести исследование на предмет размера русского интернета. Заодно померяем, какую часть Рунета индексирует каждый поисковик, правда, если результаты окажутся плохие, мы их не будем публиковать, чтобы никого не обижать — опубликуем только исходный код алгоритма.

Среди комментариев читателей «Вебпланеты» звучала мысль, что метапоисковик — это старо и бесперспективно. Мы с этим тоже частично согласны — нас интересует больше не метапоисковая часть, а кластеризация и другие технологии искусственного интеллекта. Но было бы неразумно для их реализации создавать свой собственный индекс — в научных целях для этого проще воспользоваться готовыми разработками.

Как планируется развивать Nigma.Ru? Не с академической, а с прикладной точки зрения.

Мы вкратце постарались написать это в опубликованной новости, идеи пока очень общие, как только они будут выкристализовываться — мы будем их публиковать. Мы не собираемся скрывать наши планы, как это делают наши коммерческие аналоги, т.к. мы проект — некоммерческий, мы не боимся, что кто-то из конкурентов сделать что-то похожее, наоборот — будем только рады.

Вообще, «Нигма» — это коммерческий проект? Если «нет», то планируется ли в дальнейшем коммерициализировать его, начать продавать рекламу, вводить платные услуги и т.д.?

Мы прежде всего создаем новые технологии, и если нам удастся создать действительно что-то впечатляющее, чем будет пользоваться огромное количество пользователей, будет неразумно, если мы не попытаемся заработать на этом. Но пока зарабатывание денег в наши планы не входит, а вот создание впечатляющих технологий — на повестке дня. :-)

Вы являетесь соискателем на степень кандидата физико-математических наук. Как называется ваша кандидатская работа?

Окончательная темя не выбрана, видимо, что-то в роде «Использование алгоритмов искусственного интеллекта для поиска информации в сети Интернет»

Чем вы занимаетесь на факультете ВМиК МГУ им. М. В. Ломоносова?

Я был аспирантом ВМиК МГУ, защитил экзамены кандидатского минимума, но потом был вынужден приостановить свое обучение в связи со своей работой в Mail.Ru. Сейчас я просто вернулся. / Вебпланета


Материалы по теме:
13.04.2005 02:48:22 В МГУ родилась поисковая система Nigma.Ru
30.08.2006 12:41:10 Google объединяется с WebMoney
06.02.2006 21:33:44 Илья Сегалович: «Мы „умеем“ обходить, строить и отвечать на запросы примерно по 1 миллиарду документов»
16.01.2006 13:45:00 Golden Telecom набирается мужества продать «Апорт»
20.10.2005 03:51:27 Виктор Лавренко: «Получить финансирование под хорошую модель совершенно нетрудно»
18.10.2005 03:22:57 «Финам» купил «Мамбу»
Все новости по теме

Отзывы (0)





Новости Сети
« апрель 2005 »
пн   4 11 18 25
вт   5 12 19 26
ср   6 13 20 27
чт   7 14 21 28
пт 1 8 15 22 29
сб 2 9 16 23 30
вс 3 10 17 24
Заголовки всех новостей

© 2000 Volchkov.ru