The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

форумы  помощь  поиск  регистрация  майллист  вход/выход  слежка  RSS
"Защита сайта от выкачивания"
Вариант для распечатки  
Пред. тема | След. тема 
Форумы OpenNET: Виртуальная конференция (Public)
Изначальное сообщение [ Отслеживать ]

"Защита сайта от выкачивания"  
Сообщение от Frei email(ok) on 21-Окт-08, 18:45 
Здравствуйте.

Столкнулся со следующей проблемой:
Есть некоторый сайт site.ru, а второй сайт site2.ru периодически производит незаконное копирование первого сайта и размещает скопированный контент у себя.

По логам я посмотрел с какого вероятно происходит выкачивание, так же закрою доступ с ip адреса site2.ru.

Что ещё можно сделать для защиты контента на site.ru? Есть ли какие то программные решения чтобы вычислять что проичходит выкачивание информации и прекратить этот процесс?

Заранее благодарен.

Высказать мнение | Ответить | Правка | Cообщить модератору

 Оглавление

Сообщения по теме [Сортировка по времени | RSS]


1. "Защита сайта от выкачивания"  
Сообщение от Anonym on 21-Окт-08, 22:02 
>[оверквотинг удален]
>первого сайта и размещает скопированный контент у себя.
>
>По логам я посмотрел с какого вероятно происходит выкачивание, так же закрою
>доступ с ip адреса site2.ru.
>
>Что ещё можно сделать для защиты контента на site.ru? Есть ли какие
>то программные решения чтобы вычислять что проичходит выкачивание информации и прекратить
>этот процесс?
>
>Заранее благодарен.

Я рыдаю ))))))))))))))))

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

2. "Защита сайта от выкачивания"  
Сообщение от const email(??) on 22-Окт-08, 00:52 
>Я рыдаю ))))))))))))))))

А зря. Это ж DRM - смотреть можно, а скопировать нельзя. Здравый смысл подсказывает, что такое невозможно, но суровая реальность настойчиво твердит обратное... (не совсем обратное, но что-то в ту сторону)

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

3. "Защита сайта от выкачивания"  
Сообщение от Grey (ok) on 22-Окт-08, 00:59 
>>Я рыдаю ))))))))))))))))
>
>А зря. Это ж DRM - смотреть можно, а скопировать нельзя. Здравый
>смысл подсказывает, что такое невозможно, но суровая реальность настойчиво твердит обратное...
>(не совсем обратное, но что-то в ту сторону)

а когда вы смотрите контент, вы его не выкачиваете? :)
однако .....

это как у меня клиенты ... "если я просто сайты смотрю - это ж значит я ничего не качаю и значит не плачу?"

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

4. "Защита сайта от выкачивания"  
Сообщение от Frei email(ok) on 22-Окт-08, 10:35 
Уважаемые, удивлён скупостью вашего ума и невнимательным прочтением вопроса.

Обращаю ваше внимание что я НЕ спрашиваю как защитить контент одной конкретной страницы от скачивания, прочтения и сохранения, меня интересует как выявить выкачивание всего сайта и блокировка такого выкачивания.

Обращаю ваше внимание так же на то что при выкачивании сайта (если вы конечно делали что то подобное в жизни) происходит быстро и выполняется много запросов в секунду (да и вообще). При нормальном (человеческом) просмотре сайта такой активности быть не может.


Так вот ещё раз вопрос: как обнаружить аномальную активность в скачивании страниц сайта (обращений к сайту) и заблокировать скачивающего?

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

5. "Защита сайта от выкачивания"  
Сообщение от Grey (ok) on 22-Окт-08, 10:50 
>[оверквотинг удален]
>всего сайта и блокировка такого выкачивания.
>
>Обращаю ваше внимание так же на то что при выкачивании сайта (если
>вы конечно делали что то подобное в жизни) происходит быстро и
>выполняется много запросов в секунду (да и вообще). При нормальном (человеческом)
>просмотре сайта такой активности быть не может.
>
>
>Так вот ещё раз вопрос: как обнаружить аномальную активность в скачивании страниц
>сайта (обращений к сайту) и заблокировать скачивающего?

Про наш ум - это у Вас лихо получается ... ну да ладно ...
а по поводу Вашего вопроса ... ну сказать можно только одно ... смотрите в логи веб-сервера ... и делайте выводы ... выкачать сайт можно и не за один раз ... а к примеру по страничке за сутки ... отловите кто выкачивает .. .или закройет вообще сайт чтоб не было ни у кого доступа к нему ... тогда и выкачивать (получать контент) не смогут :)

Для начала разделите понятия "выкачивать" и "смотреть" ... объясниет мне в чём тут разница, потом будем обсуждать суть вопроса :)

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

8. "Защита сайта от выкачивания"  
Сообщение от Frei email(ok) on 22-Окт-08, 12:37 
Уважаемый, Grey, предыдущее моё сообщение к вашему ответу не относилось.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

6. "Защита сайта от выкачивания"  
Сообщение от Frei email(ok) on 22-Окт-08, 11:09 
Когда у меня возник вопрос, который я сейчас решаю, я естественно сразу понял что полностью защититься не получиться, но например защитить сайт от быстрой "в лоб" выкачки должно получиться.

Если быстрое выкачивание будет прикрыто то останется только медленное, как вы и сказали по одной страничке. Но такую активность можно отследить по логам, пусть даже и в полуручном режиме.

Вот я и задаюсь вопросом: как отследить быстрое выкачивание - т.е. большое количество запросов к сайту и потом заблокировать этот IP, и как лучше организовать анализ логов на предмет постоянных (систематических) обращений?

P.S. Отвечая на ваш вопрос: разныцы между просмотром и выкачиванием на моо взгляд нет.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

7. "Защита сайта от выкачивания"  
Сообщение от maxdukov on 22-Окт-08, 12:31 
>[оверквотинг удален]
>Если быстрое выкачивание будет прикрыто то останется только медленное, как вы и
>сказали по одной страничке. Но такую активность можно отследить по логам,
>пусть даже и в полуручном режиме.
>
>Вот я и задаюсь вопросом: как отследить быстрое выкачивание - т.е. большое
>количество запросов к сайту и потом заблокировать этот IP, и как
>лучше организовать анализ логов на предмет постоянных (систематических) обращений?
>
>P.S. Отвечая на ваш вопрос: разныцы между просмотром и выкачиванием на моо
>взгляд нет.

как вариант - создание страниц динамически.
2 варианта -
пароноидальный, через аплет, который сам заберет данные с сервера и покажет на экране
умеренный - страницы делаем через CGI/PHP, в результате у выкачаного сайта ссылки на на страницы, а на скрипт. подозреваю, что умная качалка этот вариант обойдет.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

9. "Защита сайта от выкачивания"  
Сообщение от Jakut on 22-Окт-08, 15:02 
такая схема:
   1.влепить ссылку на нескольких страницах или хоть на всех, на которую человек не кликнет;
   2.банить клиента на сутки-двое если от него был запрос на нечеловекокликательный линк.

жду критику этого метода

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

10. "Защита сайта от выкачивания"  
Сообщение от dev email(??) on 22-Окт-08, 15:09 
>такая схема:
>   1.влепить ссылку на нескольких страницах или хоть на всех,
>на которую человек не кликнет;
>   2.банить клиента на сутки-двое если от него был запрос
>на нечеловекокликательный линк.
>
>жду критику этого метода

но не забыть про существование Гугла&Ко

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

11. "Защита сайта от выкачивания"  
Сообщение от Jakut on 22-Окт-08, 15:22 

>но не забыть про существование Гугла&Ко

для гугла&ко положить сайтмап

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

13. "Защита сайта от выкачивания"  
Сообщение от Frei email(ok) on 22-Окт-08, 16:06 
>
>>но не забыть про существование Гугла&Ко
>
>для гугла&ко положить сайтмап

Да кстати этим товарищам я хочу вообще разрешить всё качачть - добавить их так сказать в белый лист

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

12. "Защита сайта от выкачивания"  
Сообщение от Frei email(ok) on 22-Окт-08, 16:04 
>жду критику этого метода

)))) Вот она:

Есть вероятность что пока дело дойдёт до этой страницы все остальные уже будут выкачены и бан на 1 - 2 дня просто ни к чему не приведёт - через 1-2 недели, когда скачка повториться всё будет также (всё выкачено и потом дело дойдёт до этой страницы).

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

14. "Защита сайта от выкачивания"  
Сообщение от const email(??) on 23-Окт-08, 08:36 
>Есть вероятность что пока дело дойдёт до этой страницы все остальные уже
>будут выкачены и бан на 1 - 2 дня просто ни
>к чему не приведёт - через 1-2 недели, когда скачка повториться
>всё будет также (всё выкачено и потом дело дойдёт до этой
>страницы).

Так надо плохую ссылку не в глубине сайта один раз делать, а на каждой странице и не по одному разу :)

Развитие идеи: тестовые ссылки можно делать в виде <a class="trap" href="...">...</a> и жабоскриптом при загрузке их все выносить. Думаю, качалки скрипты не выполняют.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

16. "Защита сайта от выкачивания"  
Сообщение от Frei email(ok) on 26-Окт-08, 17:16 
>Развитие идеи: тестовые ссылки можно делать в виде <a class="trap" href="...">...</a> и жабоскриптом при загрузке их все выносить. Думаю, качалки скрипты не выполняют.

Впринципе идея мне начинает нравиться :)

Попробую её ещё раз изложить полностью, может кто то найдёт ошибку:
1. На каждой странице делаем ссылку на некоторую страницу, ссылка такая, чтобы пользователь по ней не смог перейти - только скрипт (машина).

2. Эта страница - это скрипт, который вносит в чёрный список всех, кто на неё попал.

3. CMS сайта модифицируется так чтобы при каждом обращении проверять наличие данного "просителя" в чёрном списке.

4. Если он там есть, то показать ему шиш. Если всё хорошо, то выдать страницу.

У меня только есть один вопрос - как лучше делать, так как описал я (средствами CMS) или у апача есть свой чёрный список?

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

15. "Защита сайта от выкачивания"  
Сообщение от angra (ok) on 26-Окт-08, 05:50 
Важный момент, который забывают при аргументе "просмотреть=скачать", это код исполнимый на стороне клиента, то бишь js, vbs, flash, java, silverlight итд. Обходится это через управление настоящим браузером типа IE, ообычные качалки типа wget, lwp, teleport итд не умеют исполнять подобное. Еще более надежной защитой являются "цифры на картинке", тут даже управление браузером не поможет.
Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

17. "Защита сайта от выкачивания"  
Сообщение от Frei email(ok) on 26-Окт-08, 17:18 
Вот кстати по поводу картинок:

У Гугла и Яндекса реализована защита, о которой я говорю. Если к поисковику идёт очень много запросов от одного клиента, то ему предлагают сначала ввести код изображённый на картинке.

Вот интересно как это сделано? Средствами чего? Можно ли и мне это как то сделать?

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

18. "Защита сайта от выкачивания"  
Сообщение от PavelR (??) on 26-Окт-08, 18:11 
>Вот кстати по поводу картинок:
>
>У Гугла и Яндекса реализована защита, о которой я говорю. Если к
>поисковику идёт очень много запросов от одного клиента, то ему предлагают
>сначала ввести код изображённый на картинке.
>
>Вот интересно как это сделано? Средствами чего? Можно ли и мне это
>как то сделать?

можно. пишите свои скрипты.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

19. "Защита сайта от выкачивания"  
Сообщение от Pahanivo email(??) on 26-Окт-08, 20:23 
МММ копирайтить контент а затем устраивать судебные иски )


Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

20. "сайта Зашита"  
Сообщение от Andrey Mitrofanov on 27-Окт-08, 09:34 
>вести код изображённый на картинке.
>
>Вот интересно как это сделано? Средствами чего? Можно ли и мне это
>как то сделать?

См.: интернет, ключевое слово "captcha".

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

21. "Защита сайта от выкачивания"  
Сообщение от Guest (??) on 27-Окт-08, 15:46 
Для начала узнай все что можно о нападающем. Диапазон IP, user agent, частоту запросов, время обхода, глубину обхода и т.д., посмотри через какое время после обхода новая информация появляется на вражеском сайте. Если враг не шибко умен и не проверяет обновления вручную, отдай им целый сайт с фотками экскрементов, различных личинок и червей и прочей гадости, а вместо текста - матерные частушки. Десять раз подумают, прежде чем еще раз качать.

А просто защититься от обхода роботами можно кучей способов.
Фильтры по IP/UA не эффективны, зато хорошо работают ссылки-ловушки и просто отсечение по частоте запросов. Поисковики можно занести в whitelist по IP, см., например, http://chceme.info/ips. Скорее всего это не полный список, но вручную или даже автоматически пополнять whitelist на основе данных из whois - не проблема.

Javascript защита - плохой вариант, ибо сложна, в любом случае ударит по части легальных пользователей, и все равно потребует whitelist для поисковиков.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

22. "Защита сайта от выкачивания"  
Сообщение от Frei email(ok) on 27-Окт-08, 16:42 
Спасибо за развёрнутый ответ.

Идея с экскрементами очень понравилась и позабавила )))) Живо представил удивление на лице "врага" ))))

Я вот склоняюсь к варианту с ссылками ловушками. Буду пробовать.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

23. "Защита сайта от выкачивания"  
Сообщение от anonymous (??) on 28-Окт-08, 08:32 
>Спасибо за развёрнутый ответ.
>
>Идея с экскрементами очень понравилась и позабавила )))) Живо представил удивление на
>лице "врага" ))))

Лучше отдавать ему содержимое vesna.yandex.ru.

>Я вот склоняюсь к варианту с ссылками ловушками. Буду пробовать.

Очень хороший, годный вариант.  Не забудьте только про rel="nofollow".

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

24. "Защита сайта от выкачивания"  
Сообщение от Guest (??) on 28-Окт-08, 16:51 
>Не забудьте только про rel="nofollow".

Это убивает всю идею, потому что ничто не мешает врагу также учитывать nofollow. Поэтому whitelist.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

25. "Защита сайта от выкачивания"  
Сообщение от makoviy (ok) on 06-Фев-09, 03:07 
>[оверквотинг удален]
>
>А просто защититься от обхода роботами можно кучей способов.
>Фильтры по IP/UA не эффективны, зато хорошо работают ссылки-ловушки и просто отсечение
>по частоте запросов. Поисковики можно занести в whitelist по IP, см.,
>например, http://chceme.info/ips. Скорее всего это не полный список, но вручную или
>даже автоматически пополнять whitelist на основе данных из whois - не
>проблема.
>
>Javascript защита - плохой вариант, ибо сложна, в любом случае ударит по
>части легальных пользователей, и все равно потребует whitelist для поисковиков.

Отличный совет про подмену страниц! Появился у меня сайт-двойник, ежедневно выкачивает объявления с моего сайта. Сейчас я им предоставлю "нужную" информацию для размещения :)

А по поводу отображения картинки при большом количестве запросов - кто-нибудь реализовал?

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

26. "Защита сайта от выкачивания"  
Сообщение от Frei email(ok) on 06-Фев-09, 09:01 
Сейчас у нас работает защита со скрытой ссылкой - помогает на 100%. Сайт двойник, как не пытался качать постоянно банится.

На мой взгляд другой защиты даже и не нужно. Нормальных пользователей такой алгоритм заблокировать не может.

При реализации главное не забывайте сделать Белый лист, в который внесите все нужные поисковики.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

27. "Защита сайта от выкачивания"  
Сообщение от makoviy (ok) on 06-Фев-09, 10:59 
>Сейчас у нас работает защита со скрытой ссылкой - помогает на 100%.
>Сайт двойник, как не пытался качать постоянно банится.
>
>На мой взгляд другой защиты даже и не нужно. Нормальных пользователей такой
>алгоритм заблокировать не может.
>
>При реализации главное не забывайте сделать Белый лист, в который внесите все
>нужные поисковики.

Я так понимаю, что у Вас сайт выкачивают при помощи программ-граберов? У меня забирают конкретные объявления, как я понимаю, при помощи самописного парсера. Ведь парсер не ходит по ссылкам (сам такой писал когда-то).
Например, есть сайт с объявлениями. Парсеру достаточно зайти на страницу с результатами поиска, а далее просканировать этот список, найти в нем урлы конечных объявлений, зайти на них и забрать информацию в соответствии с версткой. Вот и все. То есть он изначально не ходит по крытым ссылкам и т.д.

Так что, думаю, что мне поможет только ввод картинки при большом числе запросов, т.к. за 15 минут они выкачивают до 5-10к объявлений. Вот ищу как это сделать...

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

28. "Защита сайта от выкачивания"  
Сообщение от makoviy (ok) on 06-Фев-09, 14:28 
Кстати, установил отлов по ссылкам. Вот это тема! Уже Яху попался:)) И один человечек, который пытался выкачать сайт. Работает!

Но картинку по кол-ву запросов тоже нужно поставить...

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

Архив | Удалить

Индекс форумов | Темы | Пред. тема | След. тема
Оцените тред (1=ужас, 5=супер)? [ 1 | 2 | 3 | 4 | 5 ] [Рекомендовать для помещения в FAQ]




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру