Поисковые системы, которые игнорируют директивы файла robots.txt, а также полностью кладут на .htaccess и все запреты в нем.
Совсем циничных поисковиков у нас 3 штуки:
- Bing (MSN)
- Yahoo
- Google
Очень часто к ним присоединяется Яндекс, но частично он все-таки потом убирает из индекса страницы, которые запрещены к индексации.
Что прописано в роботс.txt? - полный запрет на индексацию.
Что прописано в .htaccess? - блок ботов по юзерагентам и IP адресам.
Результат - его нет, не слушаются они Другие поисковики не тестил, мне они не интересны.
#1 by poglammer on 09/10/2009 - 08:42
Quote
что-то непонятное... никто не может просто так проигнорировать .htaccess, так как тут прописаны серверные директивы, и если бот проходит через них, значит (а) директивы плохо/неправильно настроены (б) бот маскирует IP и юзерагент. роботс.тхт - это другое дело. эти директивы чисто добровольные, потому и похерить их намного проще.
ps. да, и настрой немного получше систему комментариев. оставил один коммент, все ок. перешел сюда, начал писать коммент сразу, т.к. было написано "Welcome back...", я подумал, что все ок. а оказалось я не ввел защитный код, который хорошо заныкан. коммент был похерен, т.к. на следующей странице мне было сказано (в кодировке cp-1251) что я не ввел защитный антиспам код...
#2 by MyOST on 09/10/2009 - 09:25
Quote
.htaccess - да бот просто ложил на него. Сейчас отбивка пошла ботов, но многие ресурсы проиндексировались несмотря на директивы.
Явление не "повальное", но все-таки факт есть факт
P.S. по комментам понятно.