<?xml version="1.0" encoding="koi8-r"?>
<rss version="0.91">
<channel>
    <title>OpenForum RSS: Раздел полезных советов: Отсеивание AI-ботов на web-сервере через Cookie</title>
    <link>https://opennet.ru/openforum/vsluhforumID3/138252.html</link>
    <description>Для отсеивания ботов, агрессивно &#091;&#091;https://www.opennet.ru/opennews/art.shtml?num=62925 индексирующих&#093;&#093; контент, игнорируя правила из robots.txt, можно воспользоваться тем, что многие боты запрашивают заранее предопределённый набор страниц и не передают Cookie, выставленные в ответ на прошлые запросы. &lt;br&gt;&lt;br&gt;Идея в том, чтобы при поступлении запроса проверять наличие определённой  Cookie и если она отсутствует вместо запрошенного контента отдавать HTML-заглушку, возвращающую JavaScript-код для выставления Cookie и перенаправления пользователя на ту же страницу.  При отправке запроса из браузера при первом входе запрос незаметно для пользователя будет проброшен через код установки Cookie. В промежуточном ответе используем код &lt;br&gt;ошибки HTTP &#091;&#091;https://developer.mozilla.org/en-US/docs/Web/HTTP/Reference/Status/418 418&#093;&#093;, информирующий о нежелании обрабатывать автоматизированные запросы.&lt;br&gt;&lt;br&gt;Предложенный метод не отсеивает всех ботов, но проще в настройке и менее назойливый для посетителей, чем применение системы защит</description>

<item>
    <title>Отсеивание AI-ботов на web-сервере через Cookie (Аноним)</title>
    <link>https://opennet.ru/openforum/vsluhforumID3/138252.html#44</link>
    <pubDate>Sun, 19 Apr 2026 21:07:07 GMT</pubDate>
    <description>(и соответственно эти скрыто-майнинговые проверки на ботов, как и каптчи, покушаются на приватность, даже просто данных на винте)&lt;br&gt;&lt;br&gt;</description>
</item>

<item>
    <title>Отсеивание AI-ботов на web-сервере через Cookie (Аноним)</title>
    <link>https://opennet.ru/openforum/vsluhforumID3/138252.html#43</link>
    <pubDate>Sun, 19 Apr 2026 21:01:07 GMT</pubDate>
    <description>У прокси бывают разные страны.&lt;br&gt;</description>
</item>

<item>
    <title>Отсеивание AI-ботов на web-сервере через Cookie (Аноним)</title>
    <link>https://opennet.ru/openforum/vsluhforumID3/138252.html#42</link>
    <pubDate>Sun, 19 Apr 2026 20:36:59 GMT</pubDate>
    <description>Нормальный это запрещающий вообще все. Как и сливной JS.&lt;br&gt;&lt;br&gt;</description>
</item>

<item>
    <title>Отсеивание AI-ботов на web-сервере через Cookie (Аноним)</title>
    <link>https://opennet.ru/openforum/vsluhforumID3/138252.html#41</link>
    <pubDate>Sun, 19 Apr 2026 20:21:33 GMT</pubDate>
    <description>&amp;gt; юрисдикция присоединилась к конвенции ООН об обмене информацией.&lt;br&gt;&lt;br&gt;Дальше можно не читать&lt;br&gt;</description>
</item>

<item>
    <title>Отсеивание AI-ботов на web-сервере через Cookie (Аноним)</title>
    <link>https://opennet.ru/openforum/vsluhforumID3/138252.html#40</link>
    <pubDate>Sun, 19 Apr 2026 20:17:50 GMT</pubDate>
    <description>&amp;gt; Подрубать &quot;серым&quot; клиентам скорость соединений/коннекты. Чтобы поток парсера максимально долго торчал в памяти на той стороне, читая по чайной ложке. &lt;br&gt;&lt;br&gt;А, так вот почему у меня постоянно через прокси на некоторых IP - opennet(заблокирванный в моей стране) грузит по &quot;пару байт минуту&quot;, теперь буду знать... &quot;защита&quot; от обучения ИИ, сюрмор!&lt;br&gt;</description>
</item>

<item>
    <title>Отсеивание AI-ботов на web-сервере через Cookie (Аноним)</title>
    <link>https://opennet.ru/openforum/vsluhforumID3/138252.html#39</link>
    <pubDate>Sun, 19 Apr 2026 20:08:01 GMT</pubDate>
    <description>Что помешает ИИ или боту выдать себя за такого...&lt;br&gt;&lt;br&gt;</description>
</item>

<item>
    <title>Отсеивание AI-ботов на web-сервере через Cookie (Аноним)</title>
    <link>https://opennet.ru/openforum/vsluhforumID3/138252.html#38</link>
    <pubDate>Sun, 19 Apr 2026 20:06:25 GMT</pubDate>
    <description>&amp;gt; При обнаружении бота - слать его в tarpit, лимитировать число запросов десятью &lt;br&gt;&amp;gt; и отдавать со скоростью 100 байт в секунду.&lt;br&gt;&lt;br&gt;А, он возмёт автоматически или обидется и заДДОСИТ тебя/твоегохостера с нескольких десятков-сотен миллионов IP :&#093; Т.б.ныне же боты поумнели. Я уж не говорю - взломает сайт и пройдёт защиту .&#093; &lt;br&gt;А, если это бот спеуслужб или опг &#091;типа моссад и т.п.&#093;, в т.ч.мимикрируюих под что угодно, &lt;br&gt;то, это же дело уже принципа доступность к данным.  &lt;br&gt;И лимитируй, не лимитируй... &lt;br&gt;&lt;br&gt;&lt;br&gt;</description>
</item>

<item>
    <title>Отсеивание AI-ботов на web-сервере через Cookie (Аноним)</title>
    <link>https://opennet.ru/openforum/vsluhforumID3/138252.html#37</link>
    <pubDate>Sun, 19 Apr 2026 19:57:50 GMT</pubDate>
    <description>&amp;gt; Можно будет продавать данные. &lt;br&gt;&lt;br&gt;Не можно а, не сомневайся - продаёт владельцам ИИ, естественно сами владельцы сайтов - &quot;идут лесом&quot;.&lt;br&gt;&lt;br&gt;&lt;br&gt;&amp;gt;  как можно отличить поискового бота от AI? Суть ведь их работы одна и та же - собирать данные.&lt;br&gt;&lt;br&gt;Прикол же ещё в том что, поисковые запросы уверен кроме официально ещё и не официально проверяют сайты, под видом реальных пользователей, а то и с аккаунтами. Иначе же легко туфту поисковику подсовывать в итоге - пользователи будут получать совсем не тот контент который обещает поисковик... &lt;br&gt;&lt;br&gt;&lt;br&gt;&lt;br&gt;&lt;br&gt;&amp;gt; статья: (JS) защиты от ботов&lt;br&gt;&lt;br&gt;Скорей, вред пользователям за некоторыми типами прокси.. в т.ч.и Cookies авто-режущими, т.б.в наши времена...&lt;br&gt;</description>
</item>

<item>
    <title>Отсеивание AI-ботов на web-сервере через Cookie (Аноним)</title>
    <link>https://opennet.ru/openforum/vsluhforumID3/138252.html#36</link>
    <pubDate>Sun, 29 Mar 2026 16:05:18 GMT</pubDate>
    <description>Куки в боте нет вообще никакой проблемы выставлять. Это тривиально делается в httpx. Как и подделка хедеров под браузер. Но это всё - проигранная игра, я уже сказал - на гитхабе в последнее время все скрейперы почти поголовно на Microsoft Playwright написаны, видимо клод натренировали именно его юзать. На куку на домен общее максимум полмегабайта хранить можно, но учитывая что инстанс браузера минимум сотни мегов жрёт, и им - ОК, так вы ботов не заблокируете. Некоторым и нейросеть ведь крутить ресурсов хватает, а это уже десятки гигов для имеющей смысл нейросети, ведь без пропускания через нейросеть скрейпинг почти бесполезен, ни парсинг яндекс томита-парсером (GLR-парсер ... но для естественного языка), ни Stanford NER нужного качества вам не обеспечат, только БЯМ. Так что даже требуя полноценный браузер вы ботов не заблокируете. Даже если вы на просто просмотр каптчу поставите, так вы мощных ботов не заблокируете, для её распознавания нейронка на MobileViT всего 10 мегов весила, 10000 классов объектов, 5 ле</description>
</item>

</channel>
</rss>
