14/06/2008
kuzmin:
Можем пройтись по конкретным действиям, мне это очень интересно, вдруг я чего то новое услышу.
Можем пройтись по конкретным действиям, мне это очень интересно, вдруг я чего то новое услышу.
Не думаю, что смогу вас удивить , но все же. Первое что нужно сделать - понять как действует конкурент. Для этого проанализировать access-логи веб-сервера. К примеру, так:
cut -d ' ' -f 1 < /var/log/nginx/localhost.access_log | awk -f count.a | sort -n -r
Лог-файл, естественно, нужно указать свой. "count.a" - awk-счетчик, код:
{ counter[$1] += 1 }
END { for (u in counter)
printf "%d %s\n", counter[u], u
}
Можно также проанализировать имена ботов. К примеру, за месяц на моем "непубличном" сайте картина следующая:
14827 "Mozilla/5.0
295 "Mozilla/4.0
217 "Opera/9.26
49 "msnbot/1.1
47 "Yandex/1.01.001
29 "Opera/9.50
21 "msnbot-media/1.1
14 "StackRambler/2.0
9 "Opera/9.27
8 "rulinki.ru
8 "msnbot-media/1.0
6 "SeoArchive/1.0"
6 "Java/1.6.0_04"
3 "TOP.NET.RU
2 "Mozilla/4.51"
Если бы "Java/1.6.0_04" был на первом месте, я бы задумался, и постарался выделить тот пул адресов с которого приходят запросы и просто его заблокировать (если конечно, набор ip - стабилен).
Если ничего подозрительного не находится, тогда либо конкуренты создали полноценную поисковую машину, либо получают инфу из другого источника (тот же xml-файл для яндекса). Второй вариант более вероятен. Если все же первый - тут уж только скрывать контент (жава-скрипт, картинки и т.п.)
Однако, скорее всего поиск пишется под конкретные сайты с конкретными шаблонами. В этом случае нужно понять последовательность запросов и попытаться их отрезать. Критерии могут быть разные:
- частота запросов
- последовательность запрашиваемых страниц
- ip-адреса
С частыми запросами можно бороться к примеру mod_evaise для apache. Тут нужно подобрать такие параметры, которые бы блокировали слишком шустрых ботов, но пропускали бы ботов обычных поисковых систем.
IP-адреса блокируются файрволом или веб-сервером.
Что касается контернта запросов - здесь уже нужно смотреть в сторону mod_security, либо snort. Шаманизм еще тот, но если конкурент уж очень назойливый, то почему бы и нет.
14/06/2008
я бы руководствовался следующими соображениями:
1) покупатель найдёт где подешевле в любом случае.
но кроме цены есть и "не ценовые" преимущества которыми можно привлечь покупателя.
2) вы получаете дополнительный приток посетителей с сайта конкурента (а не наоборот). ведь покупателю интересно будет посмотреть действительно ли у вас та цена, которую приписал вам конкурент.
выводы:
1) может и не надо с демпингом бороться? а предложить клиенту "не ценовые" преимущества.
2) можно специально для таких посетителей (которые пришли от конкурента, это ведь можно отследить) делать цену ниже.
ну если всё таки хотите бороться могу предложить такой метод: цены выставляйте js-скриптом. универсально и устойчиво парсить js-скрипт значительно трудоёмней чем html.
1) покупатель найдёт где подешевле в любом случае.
но кроме цены есть и "не ценовые" преимущества которыми можно привлечь покупателя.
2) вы получаете дополнительный приток посетителей с сайта конкурента (а не наоборот). ведь покупателю интересно будет посмотреть действительно ли у вас та цена, которую приписал вам конкурент.
выводы:
1) может и не надо с демпингом бороться? а предложить клиенту "не ценовые" преимущества.
2) можно специально для таких посетителей (которые пришли от конкурента, это ведь можно отследить) делать цену ниже.
ну если всё таки хотите бороться могу предложить такой метод: цены выставляйте js-скриптом. универсально и устойчиво парсить js-скрипт значительно трудоёмней чем html.
15/06/2008
2light
Чего то я не понял наверное. Но разве при сканировании сайта трудно замаскироваться под обыкновенный броузер (выдавать ту же мозилу) и имитировать работу простого пользователя.
Да и логи не ведутся, слишком они большие получаться, а ротейт по объему теряет смысл (в нашей ситуации):(
Сканер пишется, естественно, под конкретный сайт иначе смысла в нем нет. Обязательно с произвольной частотой запросов, а остальное ip и последовательность, очень трудно отследить, повторюсь, если Вам важны простые посетители. Можно только случайно наткнуться.
Все что мы сейчас отлавливаем, так это только "ошибочные" сканера, т. е., в которых есть ошибки и поведение становиться видно.
Тут вопрос в другом, противостоять тем кто хочет сканировать, и понимает, что делает практически не возможно. Особенно если "их" несколько. По этому у GM написано верно. Я бы даже на яваскрипт забил, все таки и индексация будет плохая и т. п.
P.S. От себя про низкие цены. Кто хочет купить именно дешевле, на дорогу (связь и т.п.) потратить в три раза больше чем сэкономит и тут ни чего не сделать, такие люди:)
Чего то я не понял наверное. Но разве при сканировании сайта трудно замаскироваться под обыкновенный броузер (выдавать ту же мозилу) и имитировать работу простого пользователя.
Да и логи не ведутся, слишком они большие получаться, а ротейт по объему теряет смысл (в нашей ситуации):(
Сканер пишется, естественно, под конкретный сайт иначе смысла в нем нет. Обязательно с произвольной частотой запросов, а остальное ip и последовательность, очень трудно отследить, повторюсь, если Вам важны простые посетители. Можно только случайно наткнуться.
Все что мы сейчас отлавливаем, так это только "ошибочные" сканера, т. е., в которых есть ошибки и поведение становиться видно.
Тут вопрос в другом, противостоять тем кто хочет сканировать, и понимает, что делает практически не возможно. Особенно если "их" несколько. По этому у GM написано верно. Я бы даже на яваскрипт забил, все таки и индексация будет плохая и т. п.
P.S. От себя про низкие цены. Кто хочет купить именно дешевле, на дорогу (связь и т.п.) потратить в три раза больше чем сэкономит и тут ни чего не сделать, такие люди:)
16/06/2008
2Kuzmin
Идентифицировать ботов они могут как угодно, Вы правы. Этот пример - просто один из вариантов анализа.
Конечно, вопрос нужно ли это все (технические приемы) - самый первый. Возможно, в Вашей ситуации как раз нетехнические мероприятия буду эффективней, как и сказал господин GM.
Как говорится Devil in the details. Удачи в бизнесе .
Идентифицировать ботов они могут как угодно, Вы правы. Этот пример - просто один из вариантов анализа.
Конечно, вопрос нужно ли это все (технические приемы) - самый первый. Возможно, в Вашей ситуации как раз нетехнические мероприятия буду эффективней, как и сказал господин GM.
Как говорится Devil in the details. Удачи в бизнесе .
26/08/2008
Как-то видел остроумный javascript, который отпасает пишете ли вы пароль или вставляете из буфера =) и делал он это просто анализируя скорость изменения поля =) если шибко уж "одним махом" - ай-ай-ай.
Я к чему - поставьте анализатор скорости смены страницы. Если какой-то клиент начинает частить - внимание на него. А там уже по анализу. Можно и заблокировать.
Я к чему - поставьте анализатор скорости смены страницы. Если какой-то клиент начинает частить - внимание на него. А там уже по анализу. Можно и заблокировать.
26/08/2008
ну тогда mod_evasive (кто-то тут упоминал) уж проще будет с этим справляться, а так если бот, то яваскрипт и работать то не будет.
26/08/2008
Цитата:
то яваскрипт и работать то не будет
то яваскрипт и работать то не будет
Вот поэтому в связке и делают. Отслеживают. Есть заход? А проверочный JS выполнился? И диапазон ип не принадлежит поисковику? Тогда подозрение на граб.
Но - это не панацея от краулеров. Либо граберов - (примитивных браузеров). Которые JS нормально выполняют (используя как основу ИЕ).
26/08/2008
Да, кстати, не подумал. Тогда идеальное решение - ajax будет.
этот то пункт не реальный, максимум можно по доменному имени попытаться отследить и то не факт, что все в открытую говорят про себя. Хотя бы, что бы результаты выдачи проверить, чтоб не обманывали (клоакинг кажется).
Цитата:
И диапазон ип не принадлежит поисковику?
И диапазон ип не принадлежит поисковику?
этот то пункт не реальный, максимум можно по доменному имени попытаться отследить и то не факт, что все в открытую говорят про себя. Хотя бы, что бы результаты выдачи проверить, чтоб не обманывали (клоакинг кажется).
Ответить