F17. $1100 per day: Индексация гуглом технологических PHP файлов

7 мар. 2015 г.

Индексация гуглом технологических PHP файлов

Если у вас на севере или сайте есть служебные файлы, которые не должен индексировать гугл, то отсутствие ссылок на этот файл и запрет в robots.txt не спасают. Потому что если какой-нибудь эвристический сканер поиска контента найдет этот файл, то он его куда-нибудь скопирует, возможно со ссылкой, потом там походит гугл и всё всплывет. Ну или сам куда-то для удобства добавишь ссылку, а гугл её найдёт.

Запрет в robots.txt приведет просто к тому, что в серпе гугла возле этого результата появится фраза типа "снипета нет потому что в robots.txt заблокировано".

Можно вызывать свой файл с параметром, а без параметра ничего не показывать, например вызывать так:

http://1.2.3.4/file.php?a=a

но это неудобно тем, что в коде нужно вставлять эту проверку.

Можно добавить авторизацию по паролю, но это ещё больше кода.

Можно в коде в самом верху добавить:

header('HTTP/1.1 404 Not Found');

Тогда человек в браузере видит файл, а робот уходит не солоно хлебавши.

2 комментария:

tulvit7 марта 2015 г. в 12:50
Гугл предлагает в этих случаях юзать X-Robots-Tag HTTP header.

https://developers.google.com/webmasters/control-crawl-index/docs/faq#h17
https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag

Сам не тестил, просто спеки почитал, когда заметил, что в выдаче крутятся тысячи запрещенных в роботсе страниц.
ОтветитьУдалить
Ответы
F178 марта 2015 г. в 20:45
1. Модерацию комментов отключил :)
2. Спасибо, ценное дополнение, но не для нашей вселенной :)
3. Кроме гуглботов в инете шарятся ещё толпы полоумных сканеров, которые срать хотели на роботс.тхт и X-Robots-Tag HTTP header. Они понимают только 444 от nginx а ещё лучше iptables DROP
ОтветитьУдалить
Ответы

Добавить комментарий

7 мар. 2015 г.

Индексация гуглом технологических PHP файлов

2 комментария:

7 мар. 2015 г.