подписка
Подписаться
Главная Форум Ведение бизнеса Автоматизация

Конкурент нас сканирует! Как он это делает, зачем, и как бороться?

Подписка на RSS
altsupport
31/03/2008
Парсер нельзя приравнять к вредоносному ПО.
Парсер это, все-таки, по принципу, как поисковик или браузер. Принцип работы то у них один и тот же. Есть публичные данные, которые запрашиваются и которые сервер им отдает.
Хотя парсером (как и браузером и поисковым роботом) и можно положить сайт. Т.е. уже по принципу ддос-атаки.
Но то что парсер не вредоносное ПО (скрипт) - это определенно.
Скопировать ссылку на сообщение
Ответить
Svyat
31/03/2008
Интересно, а кто из сдесь присутствующих не скачивал прайсы конкурентов (или брал цены из других источником) для использования в своей последующей ценовой политике? Многие системы обработки прайсов это позволяют и успешно делают.

Некоторые вот даже парсят описания и характеристики с яндекса, и ничего, совесть пока не замучила.
Скопировать ссылку на сообщение
Ответить
Disem
01/04/2008
Добрый день :) . Практика размещения в интернете сводных прайсов становится довольно популярной) Мы, например, пытаемся строить на услугах согласования прайсов со справочником клиента свой бизнес. Пока в основном клиенты в фармацевтической отрасли, но это потому что начиналось все с программы автоматизации аптек а уже потом начали разрабатывать систему сводного прайс листа для заказа продукции. Кстати у наших программистов была задача по скачиванию прайсов из инета, но она ни чем не закончилось - был программист, что то даже пытался сделать, но ему надавали более приоритетных задач и работы по парсеру пока закончились.
В дальнейшем наверно будем что-то пытаться сделать а пока размещаем тех кто сами желают(Есть и такие :wink: ). А так как основная задача найти клиентов под нашу программу заказа(отправка заявок из сводника, электронные накладные с кодами клиента и их автоматическая загрузка в склад. программу клиента), для поиска клиентов на размещения на сайте времени особо не хватает. Кому интересно, ссылка на наш сайт со сводниками в подписи.
Скопировать ссылку на сообщение
Ответить
Disem
01/04/2008
Кстати есть несколько поставщиков которые пользуются сводником именно для мониторинга цен. Единственная проблема это получить прайсы для мониторинга, не у всех же прайсы лежат в открытом доступе - многие пользуются электронными площадками (вроде нашей) для работы с клиентами. А значит прайс видят только те для кого этот прайс предназначен :(
Скопировать ссылку на сообщение
Ответить
kuzmin
01/04/2008
Цитата:

Раз не специалист, скажу кратко... Принципиальная разница примерно такая же, как между полезной утилитой/программой и вредоносным вирусом. Вроде бы обе - прграммы, но одна - полезная, а другая - опасная и наносит вред.


Улыбнуло. На каком основание такой вывод? Это как сказать, что роутинг = плохо, а маршрутизация = хорошо:)
По лингво.ру: parser - программа синтаксического анализа, синтаксический анализатор; программа грамматического разбора.
Чем это будет отличаться от IE,firefox-a и т.п.? Или для отображения страниц они не пользуются парсером. Или они хорошим парсером пользуются?

Нас постоянно сканируют, и все бы было хорошо, если люди грамотно все писали. Половина "плохих" парсеров, сканеров и т.д. написаны с ошибками и просто начинают валить сервера. Баним по ip (мы же "совок"), гораздо дешевле (это про юристов), эффективнее и быстрее.

Кстати, нормально написанный парсер отследить не возможно! С отделом К и без него, его поведение не будет отличаться от поведения реального человека.
Скопировать ссылку на сообщение
Ответить
altsupport
02/04/2008
Цитата:

Кстати, нормально написанный парсер отследить не возможно!

Возможно, но не универсально (98%). Но 2% можно пренебречь (правда от ресурса зависит).
Скопировать ссылку на сообщение
Ответить
kuzmin
02/04/2008
2altsupport.
Действительно интересно как? Хотя бы методику, у меня ума не хватает:(. Подчеркну, что он нормально написан, т.е. и рефер и запросы и время обращения контролируются.
Скопировать ссылку на сообщение
Ответить
altsupport
02/04/2008
Цитата:

Хотя бы методику, у меня ума не хватает

Грабер, это ведь не краулер, он не может обработать JS. Да даже краулер не сможет выполнить сложный JS.
Многие забывают обрабатывать Куки (а могут, только зачем если и так все работает)
...
Куки можно и на JS записывать.
...
С контролем проверки - куки нельзя потделать.
...
Грабер может обращаться к изображениям, но к ним не обращается.
Реальный браузер пользователя подгрузит изображение (которое - скрипт выводящий изображение) либо стили.
...
Выведенный Алерт блокирует окно (не нажав на Ок, его не закрыть и не свернуть).
...
Прокси из России встречаются очень редко (ибо такой трафик редко кому нужен, да и проще нагадить забугру, чем своим).
...
Но все это (большинство) касается граберов-скриптов. Десктопные граберы отследить практически не возможно.
Но также и в этом случае помогает метод - замучить переписыванием, когда проще плюнуть, чем продолжать =)
Скопировать ссылку на сообщение
Ответить
kuzmin
02/04/2008
Не правильно написал. "Не возможно" не бывает, бывает много денег и времени на решение конкретной задачи.:)

JS не панацея.
Кук можно получить и так, а потом подсовывать через сканер. Т.к. он обычный текстовой файл, то не трудно в нем разобрать, что и как менять.

Не скачивание изображений - это признак, но сначала надо отдать нужную страничку, т.е. то, что это был сканер узнаешь уже отдав информацию.
Алерт (если я правильно понял) вообще не серьезно:) Хотя и действенно.
Про прокси не понял.

А вот переписывание (не большие изменения), соглашусь, один из лучших способов. Правда не всегда удобный.

Сойдемся на
Цитата:

Возможно, но не универсально (98%). Но 2% можно пренебречь (правда от ресурса зависит).

:)
Скопировать ссылку на сообщение
Ответить
altsupport
02/04/2008
Цитата:

Т.к. он обычный текстовой файл, то не трудно в нем разобрать, что и как менять.

Не зная алгоритма генерации, подделать не возможно.

Не в тему, я как-то на спор давно делал авторизацию на JavaScript-е, такую что её можно взять только брутом. Т.е. надо было защитить страничку (странички пользователей) на сайт.народ_ру от посторонних взглядов. Получилось надежно, дешево и сердито (на народ_ру поддержки cgi нет, использовать на стороне нельзя).
Я к тому, что даже в принципе где это сделать не возможно, всегда можно поискать решение.

Цитата:

Правда не всегда удобный.

Можно ведь менять чуть ли не каждый час (заранее раставив меток и выбирать из заранее подготовленых вариантов).
Больше, наверное, не неудобный, а не известный на реакцию поисковика. Не сочтет ли за клоакинг.
...
Если по теме цен - их ведь можно выводить в браузер ДжаваСкриптом. Т.е. грабер получит просто код странички, а браузер - выполнит JS и пользователь уже получит внешний вид с ценами.
Но это будет уже параноя да и гиморой с генерацией нужного JS, его названия (ведь закэшируется) или отрубить кэширование и т.п. Вообщем даже и параноя и гиморой в одном лице + еще и выдавая js проверок делать что это посетитель а не грабер.
Скопировать ссылку на сообщение
Ответить
light
12/06/2008
Приветствую!

В интернете есть определенная этика поиска, определяемая файлом robots.txt. Попробуйте запретить индексацию всем поисковым ботам. Если не поможет - это по меньшей мере повод обвинить конкурентов в неэтичности (однако не думаю, что нарушение запрета будет иметь хоть какую-то юридическую силу).

Что касается конкретных действий - думаю имеет смысл прикрутить IDS типа Snort, и блокировать все попытки сканирования.

ps Скажите, а вас смущает сам факт анализа ваших цен конкурентом, или то, что они используют ваши цены для саморекламы?
Скопировать ссылку на сообщение
Ответить
kuzmin
12/06/2008
Цитата:

запретить индексацию всем поисковым ботам.

Очень дельный совет, можно упростить. Закройте сайт совсем, и не мучайтесь:)
Это и с конкурентами не поможет на 100% и сайт выбьет из поисковиков. Да и о какой "не этичности" тут можно говорить, связи robots.txt с действиями конкурентов нет.

Кстати, "попытки" сканирования тут подробно обсуждались. Мое мнение, при не большом желании сканирующего, заблокировать их не возможно (практически не возможно или ОЧЕНЬ дорого)
Скопировать ссылку на сообщение
Ответить
light
12/06/2008
Да, пожалуй с запретом ВСЕХ ботов погорячился. Естественно, гугла и яндекса оставить стоит.

Однако, на счет сканирования - все таки поведение бота и человека отличается, хотя бы по частоте запросов. При чем сомнительно, что при сканировании используются разные адреса. Только в этом случае заблокировать действительно сложно.
Скопировать ссылку на сообщение
Ответить
kuzmin
12/06/2008
Сканирование от поведения простого человека, отличается, не спорю, вопрос в том, как его отследить. Не в адресе дело, а в поведении (запросах, вариантах запросов и т.п.).
Варианта два, либо вы пускаете людей вообще на ваш сайт, либо вы _их же_ блокируете.

Я на таких вещах собаку съел, по одному проекту (информационному) нас все сканируют, ну и мы не отстаем:). Если люди понимают, что делают, выследить их очень трудно.

На каждый способ блокировки можно придумать способ обхода, опять же повторюсь, если простые посетители вам важны!

Можем пройтись по конкретным действиям, мне это очень интересно, вдруг я чего то новое услышу.
Скопировать ссылку на сообщение
Ответить
skitalez
13/06/2008
Леонид:

Потому что делать цены дешевле чем у других это нормально

В большЕм количестве розничых бизнесов используется РРЦ, и демпинг ненормален.
Скопировать ссылку на сообщение
Ответить
Ответить
Разделы форума
Открытие бизнеса
Привлечение клиентов
Удержание клиентов
Ведение бизнеса
Работа с маркетплейсами
Тенденции развития
Специальные форумы