Статистика сайта
Одна из важных задач сайта – это сбор данных о посетителях. Существуют два подхода к сбору данных.
Пассивный подход
В этом случае от клиента не требуется никаких действий, кроме собственно самого факта посещения сайта. Когда браузер обращается к веб-серверу за страницей сайта, вместе с адресом страницы он передает ряд данных, в число которых входят такие значения как IP адрес компьютера клиента и информация о типе браузера. На основе этих данных формируется знакомая многим статистика посещений сайта в виде количества хостов и хитов. Под хостом понимается уникальный IP адрес компьютера клиента, а под хитом факт запроса браузером страницы.
Количество хостов позволяет судить о количестве посетителей сайта, а количество хитов говорит об интенсивности запросов к сайту, то есть об уровне интереса посетителей к сайту. Эти два значения широко используются в рейтинговых системах для определения позиции сайта в рейтинге.
Но если разобраться с хостами и хитами подробнее, то становится очевидным, что это самый ненадежный и неточный способ оценки посещаемости. А рейтинги, построенные на таких значениях (например, Rambler Top100) далеки от справедливости.
Большинство посетителей сайта не имеют постоянного IP адреса, поскольку пользуются услугами интернет-провайдеров. При каждом подключении к Интернету с помощью модема посетителю назначается свободный IP адрес из диапазона адресов интернет-провайдера. Это значит, что один и тот же человек, регулярно заходящий в интернет в течение суток может предстать перед сервером в виде совершенно разных хостов. Клиент был один, а статистика покажет, что их было больше.
Предположим, что провайдер имеет клиентов больше, чем IP-адресов и все клиенты хотя бы раз побывают в Интернете в течение дня. В зависимости от интенсивности выходов клиентов в сеть наша статистика покажет количество посетителей меньшее или равное количеству IP адресов провайдера.
Клиенты, которые выходят в Интернет со своих рабочих мест в офисах нередко находятся за специальным сервером, который обеспечивает защиту локальной сети компании или позволяет использовать одно соединение с Интернетом многим пользователям. В этом случае для сервера все рабочие места офиса будут представлены одним IP. Посетителей было много, а статистика говорит, что был один.
Многие для ускорения доступа в Интернет используют прокси-сервера, которые сохраняют запрашиваемую пользователем информацию и выдают ее при повторном запросе, значительно ускоряя скорость доступа в сеть. Все пользователи, работающие с использованием прокси-сервера, предстанут перед сервером сайта в лице этого прокси-сервера, то есть будут иметь один и тот же IP. Учитывая факт, что интернет-провайдеры обычно предлагают прокси-север для своих клиентов, а большинство локальных сетей имеют такой прокси-сервер, сайт способен "пропустить мимо ушей" значительную часть своей аудитории.
Набор доступных серверу данных можно расширить, если включить в страницу, загружаемую браузером, специальный код на языке Javascript, который соберет и передаст серверу такие данные, как разрешение экрана, тип операционной системы, адрес предыдущей страницы и др. Но из всего этого набора данных ценным для вас является только адрес предыдущей страницы, который позволяет прослеживать путь посетителя сайта и фиксировать те ресурсы в Интернете, которые содержат ссылки на ваш сайт. Любимые же многими и абсолютно бессмысленные отчеты о типах браузеров посетителей, операционных системах и разрешениях экранов должны волновать только разработчика сайта, в обязанности которого входит обеспечение работоспособности сайта при любой комбинации этих значений.
В ответ на запрос браузера сервер, кроме запрашиваемой страницы, может передать набор имеющих для него смысл значений и указать браузеру на необходимость сохранения их на компьютере клиента. Эти значения будут автоматически передаваться браузером серверу во время всех последующих запросов. Благодаря этому сервер получает возможность хранить значения, которые привязаны к конкретному клиенту, вернее, конкретному браузеру клиента. В компьютерной лексике для таких значений существует термин – Cookie.
Cookie могут использоваться в системе сбора статистики. Точнее говоря, они должны использоваться, поскольку позволяют собирать данные гораздо более близкие к действительности чем хосты.
При использовании Cookie, сервер назначает каждому посетившему его браузеру уникальный идентификатор, который записывает на компьютер клиента. При каждом посещении сервера браузер будет передавать ему этот идентификатор, однозначно идентифицируя себя.
Преимуществом использования Cookie является идентификация посещающих сервер браузеров, что позволяет более точно определять количество посетителей и открывает путь к определению предпочтений пользователя и персонализации работы сайта.
Недостатки Cookie не позволяют решить проблему сбора точной статистики. Во-первых, сервер идентифицирует браузеры, но никак не клиентов. В ситуации, когда одним браузером пользуется несколько пользователей, сервер получит ошибочную информацию о предпочтениях браузера-клиента. Во-вторых, существует возможность отключения Cookie, что и делают пользователи, страдающие боязнью быть отслеженными. В-третьих, прокси-сервера и средства защиты локальных сетей имеют возможность "вырезания" Cookie из проходящего через них трафика. Эту возможность вполне вероятно могут использовать администраторы сетей.
Активный подход
Второй подход основан на непосредственном участии клиента. На сайте создаются наборы анкет и опросов, которые предусматривают ввод данных клиентом. Этот подход позволяет получить наиболее ценные с точки зрения маркетинга данные.
Статистика показывает, что клиенты негативно относятся к необходимости ввода данных, если только не сильно заинтересованы в этом. Задача создателя сайта – это найти сбалансированное решение, поддерживающее интерес пользователя, достаточный для заполнения анкет.
Обычно анкеты размещают в тех местах, в которых клиент может получить доступ к информации или возможностям, которые ему трудно получить на другом сайте. Всегда надо помнить, что ваш конкурент находится не далее щелчка мышью. Это означает, что клиент встретив затруднение в виде заполнения анкеты, без труда уйдет туда, где он сможет получить ту же информацию меньшим трудом.
На многих сайтах размещают блиц-опросы на главных страницах сайта. Практика показывает, что большой пользы от этого нет. Выборка в виде пяти ответивших из ста возможных вряд ли будет являться серьезным аргументом для принятия решения о свойствах аудитории. Существует практика, когда ответ на опрос сопровождается вознаграждением. Это намного более действенный способ, обычно достигающий поставленной цели.
По настоящему ценным является совместный анализ данных полученных пассивным и активным подходом. Такой анализ позволяет соотносить идентифицированные с помощью Cookie браузеры с результатами заполнения анкет и ответов на опросы. Это открывает путь к определению предпочтений клиентов и групп клиентов, позволяя строить персонализированные сайты.
Выводы
На данный момент не существует способа сбора абсолютно точной статистики о посетителях сайта. Для практического использования данных статистики в бизнесе необходим комплексный подход, использующий все возможные способы сбора данных. Грамотно сделанный сайт позволяет получать данные с использованием как пассивного, так и активного подхода.
Из всех систем сбора статистики только одна собирает все доступные пассивному подходу данные и предоставляет доступ к необходимым отчетам – это система SpyLog. Статистика остальных систем используется в основном для обеспечения работы рейтингов (Rambler Top100) и базируется на хостах, что позволяет говорить о несостоятельности указанных рейтингов.