7 мар. 2015 г.

Индексация гуглом технологических PHP файлов

Если у вас на севере или сайте есть служебные файлы, которые не должен индексировать гугл, то отсутствие ссылок на этот файл и запрет в robots.txt не спасают. Потому что если какой-нибудь эвристический сканер поиска контента найдет этот файл, то он его куда-нибудь скопирует, возможно со ссылкой, потом там походит гугл и всё всплывет. Ну или сам куда-то для удобства добавишь ссылку, а гугл её найдёт.

Запрет в robots.txt приведет просто к тому, что в серпе гугла возле этого результата появится фраза типа "снипета нет потому что в robots.txt заблокировано".

Можно вызывать свой файл с параметром, а без параметра ничего не показывать, например вызывать так:

http://1.2.3.4/file.php?a=a

но это неудобно тем, что в коде нужно вставлять эту проверку.

Можно добавить авторизацию по паролю, но это ещё больше кода.

Можно в коде в самом верху добавить:

header('HTTP/1.1 404 Not Found');

Тогда человек в браузере видит файл, а робот уходит не солоно хлебавши.

2 комментария:

  1. Гугл предлагает в этих случаях юзать X-Robots-Tag HTTP header.

    https://developers.google.com/webmasters/control-crawl-index/docs/faq#h17
    https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag

    Сам не тестил, просто спеки почитал, когда заметил, что в выдаче крутятся тысячи запрещенных в роботсе страниц.

    ОтветитьУдалить
  2. 1. Модерацию комментов отключил :)
    2. Спасибо, ценное дополнение, но не для нашей вселенной :)
    3. Кроме гуглботов в инете шарятся ещё толпы полоумных сканеров, которые срать хотели на роботс.тхт и X-Robots-Tag HTTP header. Они понимают только 444 от nginx а ещё лучше iptables DROP

    ОтветитьУдалить