Как проверить сайт на наличие смешанного контента с помощью Netpeak Spider
КейсыПри миграции на защищенный протокол HTTPS или при запуске сайта на HTTPS может возникнуть ситуация, когда на страницах появляется предупреждение-ошибка о заблокированной загрузке смешанного содержимого. Зачастую браузеры блокируют такие страницы из-за наличия небезопасных скриптов. Причиной такой ситуации является смешанное содержимое на сайте.
О том, что такое смешанный контент, как его проверить и избавиться от проблемы, я расскажу в этом посте.
1. Что такое смешанное содержимое
Смешанное содержимое (или смешанный контент) — это частично незашифрованный контент. Он возникает, когда исходный HTML-код загружается через соединение HTTPS, но некоторые его элементы (картинки, видео, таблицы стилей и т.д.) загружаются через незащищённое соединение HTTP.
Так выглядит предупреждение о смешанном контенте в браузере Google Chrome:
Это уведомление уже о блокировке страницы:
Страницы с незащищённым контентом поддаются изменениям на уровне кода, и потому данные пользователей могут быть перехвачены злоумышленниками.
Разумеется, это негативным образом сказывается на продвижении сайта.
Почему это важно: с февраля 2020 браузер Chrome начнет блокировку смешанного контента. В анонсе рекомендуются перенести смешанный контент на https://, чтобы избежать блокировки ресурсов.
2. Как найти смешанное содержимое на сайте
Проблему можно определить с помощью инструментов разработчика Chrome, но это займёт много времени для проверки больших сайтов, а особенно — если таких сайтов у вас сотни.
Решением послужат регулярные выражения и функция «Парсинг» в Netpeak Spider.
Для обнаружения скриптов смешанного контента будем использовать следующее выражение:
Для поиска href ссылок:
Для обнаружения другого смешанного контента, содержащего URL, локацию, DOCTYPE и прочих элементов:
Перейдите в Netpeak Spider и в краулере проделайте следующее:
- Откройте «Настройки» → «Парсинг». Скопируйте скрипты, приведённые выше, и дайте каждому из них название.
- Выберите тип поиска RegExp и область «Весь исходный код».
- На боковой панели отметьте минимум параметров и проверьте, отмечен ли параметр «Парсинг».
- В строку вставьте домен сайта, который хотите проверить на наличие смешанного контента, и нажмите на кнопку «Старт».
- По окончании анализа перейдите на вкладку «Отчёты» → «Парсинг» и выберите «Все результаты». Там вы можете посмотреть, нет ли на страницах с протоколом https незащищённых скриптов и элементов.
Мы подготовили видео, в котором наглядно показали, как проверить сайт на смешанное содержимое в Netpeak Spider:
У Netpeak Spider есть бесплатная версия без ограничений по времени, в которой у вас будет возможность проверять сайт на наличие смешанного контента, а также парсить сайты, используя до 100 условий парсинга! Во Freemium-версии также доступны и многие другие базовые функции программы.
Чтобы начать пользоваться бесплатным Netpeak Spider, просто зарегистрируйтесь, скачайте и установите программу — и вперёд! 😉
Зарегистрироваться и установить бесплатную версию
P.S. Сразу после регистрации у вас также будет возможность потестировать функционал, а затем сравнить все наши тарифы и выбрать для себя подходящий.3. Как устранить смешанное содержимое
Чтобы устранить смешанное содержимое, нужно все HTTP-ссылки преобразовать в HTTPS-ссылки либо настроить на сервере 301 редирект.
Если на сайте обнаружены незащищённые элементы, проверьте, есть ли с них ссылки с протоколом http://, и также исправьте их на протокол https://.
Можно также выгрузить нужные данные с незащищённых страниц и загрузить на свой сервер.
Подводим итоги
Смешанное содержимое делает сайт уязвимым и препятствует его продвижению, а потому требует немедленного устранения.
Чтобы быстро проверить веб-ресурс на наличие этой ошибки, используйте регулярные выражения и функцию парсинга в краулере Netpeak Spider. Затем устраните смешанный контент, поменяв ссылки с http:// на https://.
А у вас был опыт поиска и борьбы со смешанным контентом? Поделитесь в комментариях :)