пятница, 12 июля 2013 г.

nofollow vs robots.txt

Как известно, попросить поисковый робот не индексировать ссылку можно одним из трех способов: nofollow на уровне страницы или ссылки, или robots.txt.

А как лучше? Раньше я считал, что нужно всегда стараться использовать robots.txt. Во-первых, вся логика в одном месте; во-вторых, не надо засорять HTML кодом, который нужен исключительно для роботов. Конечно, есть исключения. Для внешних ссылок нужен nofollow, тут без вариантов. Или структура URL может быть такая сложная, что нет смысла заносить сотни правил в robots.txt. Или наоборот: один тип URL (например, ссылка на информацию о товаре), но в зависимости от типа товара ты иногда хочешь ставить nofollow.

Но я был неправ. Оказывается, может быть ещё одна серьезная причина отказаться от robots.txt...

Попросили написать программку, чтобы загрузить все crawl issues (потенциальные проблемы при индексации) из Google Webmasters Tools API. Почему через API? Потому что через сайт они дают загрузить только небольшую часть проблем, а надо всё.

Результаты меня поразили. Во-первых, у всех наших сайтов оказалось примерно по 100 тысяч проблем. Хотя количество страниц и внутренних ссылок у этих сайтов очень разное. Очевидно, Google ограничивает максимальное количество проблем в своей базе. А почему получилось примерно по 100 тысяч, а не ровно? Может им так удобнее было сделать; или ограничение не на количество записей, а на объем в килобайтах. Ну, неважно...

Интересно другое: 99% всех "проблем" - это то, что ссылка была заблокирована в robots.txt. А это на самом деле вовсе не проблема, так и задумано. Всё бы ничего, если бы не было лимита на 100 тысяч проблем. Получается, лжепроблемы засоряют отчёт, а информация о каких-то настоящих проблемах теряется. И ещё интересный момент - большинство заблокированных ссылок повторяются в отчете много раз.

2 комментария:

KEHT комментирует...

А тебе не кажется, что это проблема Гугла и что он как-то должен различать, где реальная пооблема, а куда его специально попросили не лезть? :)

Valik комментирует...

Я могу понять и логику Google тоже: иногда бывает, что во время запуска сайта сначала запрещают индексацию с помощью robots.txt. И потом уже, убедившись, что всё работает нормально, включают. Google не знает наверняка, действительно ли ты хочешь заблокировать какую-то папку или весь сайт, или просто забыл снять ограничение. А вот когда ты сказал, что это конкретная ссылка не должна индексироваться, то тут уже у него сомнений быть не должно.

Тип проблемы Google указывает. Но дело в том, что есть ограничение на 100K issues в отчете, и из-за это я теряю некоторые реальные проблемы.

Ratings by outbrain