Изберете свой собствен "Нает сървър" с необходимите параметри и селектирайте най-доброто за вашия проект.
Изберете измежду множество различни видове конфигурации и модифицирайте според необходимостта.
Стартирайте технологичния растеж на вашия бизнес
Изберете свой собствен "Нает сървър" с необходимите параметри и селектирайте най-доброто за вашия проект.
Изберете измежду множество различни видове конфигурации и модифицирайте според необходимостта.
Стартирайте технологичния растеж на вашия бизнес
Сайтовете денонощно се обхождат от ботове (роботи), най-често на търсачки, като например Googlebot , msnbot, YandexBot, bingbot и други. Тези роботи индексират съдържанието на сайтовете, с цел да предоставят по-точни и актуални резултати при търсене. Те се стремят да обходят възможно най-много, а ако е възможно и всички страници от сайта ви. Вие можете да изберете кои директории да не се обхождат от тези ботове, като използвате robots.txt файл в основната (root) директория на сайта.
Преди да започне обхождане на сайта, роботът проверява robots.txt файла, от където разбира кои директории могат да бъдат индексирани и кои не. Синтаксиса на файла е доста опростен:
User-agent: *
Disallow: /
В User-agent се описва за кой бот важат изброените ограничения, а в Disallow се изброяват забранените директории. В посочения пример с wildcard (*) се посочва, че правилата важат за абсолютно всички ботове, а Disallow: / забранява достъпа до основната директория, т.е. и до всички нейни поддиректории. Ако пропуснете „/“ в Disallow, това ще значи, че няма ограничение за директория и ботовете са свободни да обхождат всички директории в хостинг акаунта ви.
За да ограничите достъп на Googlebot до /admin директорията например, robots.txt файла трябва да изглежда по следния начин:
Ако не сте сигурни за точното име на бота, който желаете да ограничите, можете да го видите в статистиката Awstats или в Raw Access Log-а на сайта. Подробна информация за robots.txt файла и начина му на употреба можете да намерите на следния адрес:
В сайта е включен също списък на голям брой роботи и кратко описание за всеки.
Лоши ботове
Съществуват и други роботи, чието индексиране не носи позитиви за по-добро позициониране на сайта в мрежата, а напротив – сайта се сканира, за да се направи опит за злоупотреба с него. Това включва пробив в сигурността, публикуване на СПАМ в контактни форми, събиране на имейл адреси, на които после се изпраща СПАМ и много други. Такива роботи наричаме лоши ботове. За тях може да използваме .htaccess файла, ако желаем да ограничим достъпа им.
Ефективен метод за блокиране на лоши роботи е използването на User-agent- а, с който се представя робота. Може да се ограничи този User-agent с Rewrite правила в .htaccess:
В посочения пример роботите Surfbot, ChinaClaw и Zeus ще получат съобщение 403 Forbidden при опит да достъпят съдържанието на директорията, в която е поставен .htaccess файла. Можете да добавяте и още роботи, като е необходимо да се добави [OR] (или) в края на всеки ред, освен на последния User-agent. (Все пак да споменем, че добавянето на твърде много правила в .htaccess файла може да забави зареждането на сайта в някои случаи.)
При такова блокиране е препоръчително да съществуват страниците за грешки 404 Not Found и 403 Forbidden. В случай, че тези страници се генерират динамично от системата ви, това може да доведе до допълнително излишно натоварване.
Друг начин за блокиране по User-agent е с използване на SetEnvIfNoCase отново в .htaccess файла. Ето и пример:
<Limit GET POST HEAD>
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</Limit>
В първата част се дефинират User-agent-и, които ще бъдат разпознати като лоши, а във втората част се блокират всички заявки (GET, POST, HEAD) от такива роботи.
Не можете да намерите информацията, която търсите?