Почему новые сайты плохо ранжируются в Google News [Исследование эксперта]

Viacheslav VareniaGoogle top contributor в Вячеслав Вареня

3882

11 сентября 2020

Почему новые сайты плохо ранжируются в Google News [Исследование эксперта]

До декабря 2019 года для ранжирования сайта в Google News необходимо было отправить заявку на добавление в корпус Новостей через центр для издателей Google. Эта заявка проверялась в полуавтоматическом режиме, и многие информационные сайты получали отказ.

10 декабря 2019 года Google сообщил о запуске нового центра для издателей. В это же время в Справке для издателей появилась следующая информация:

«Издателям больше не нужно отправлять свой сайт, чтобы иметь право на участие в Google News. Издатели автоматически рассматриваются для главных новостей или вкладки Новостей поиска. Им просто нужно создавать высококачественный контент и соблюдать правила в отношении содержания Новостей Google».

Другими словами, отбором сайтов для индексирования и ранжирования в Google News занимается исключительно алгоритм, а человеческий фактор (влияние ревьюверов) исключён.

Ранее попасть в корпус Новостей было достаточно сложно, но новый процесс алгоритмического отбора сайтов стал ещё жёстче. Издатели массово начали жаловаться на то, что после регистрации в новом центре их сайты не ранжируются на вкладке Новости.

Команда Google сообщила, что регистрация сайта не гарантирует его ранжирования в Google News. По сути, новый центр — это лишь профиль издания, в котором можно настроить реквизиты издания и особенности показа новостей. К сожалению, по прошествии 9 месяцев с момента запуска нового центра команда Google News так и не дала официального объяснения, почему сайты не ранжируются на вкладке Новости.

Отвечая на вопросы издателей на Справочном форуме Google News, я анализировал сайты, которые претендовали на ранжирование. Оказалось, что многие из ресурсов не отвечают основным требованиям в отношении контента и техническим требованиям или нарушают рекомендации Google для вебмастеров. Однако были и достаточно качественные сайты.

Я решил провести своё исследование этой проблемы.

Дисклеймер: Все выводы, которые я сделал, являются моим личным мнением и основаны на результатах анализа моего набора данных. Ваш опыт и выводы других экспертов могут отличаться от моих.

Полученные результаты можно использовать в качестве вектора для улучшения качества сайта и повышения вероятности его ранжирования в Google News.

1. Ход исследования

1.1. Первый этап

При помощи SEMrush я получил список основных поисковых запросов одного из крупнейших украинских изданий, которое публикует новости разных тематик. При помощи самописного парсера по каждому из 644 запросов я получил из вкладки Новости топ-30 ссылок.

Затем я загрузил эти ссылки (19320 штук) в Netpeak Checker и получил данные по таким параметрам:

«Время ответа сервера»,
«Title»,
«Длина Title»,
«Description»,
«Длина Description»,
«Исходящие ссылки,
«Внутренние ссылки,
«Внешние ссылки,
«Значение H1»,
«Длина H1»,
«Размер контента»,
«Количество слов»,
«Content-Length».

Параметры «Время ответа сервера», «Title», «Длина Title», «Description», «Длина Description», «Исходящие ссылки, «Внутренние ссылки, «Внешние ссылки, «Значение H1», «Длина H1», «Размер контента», «Количество слов», «Content-Length» в Netpeak Checker

Используя API Serpstat в Netpeak Checker, я получил данные о трафике (параметр «Суммарный трафик»).

API Majestic позволил получить значения таких показателей:

«Host параметры»: Trust Flow, Citation Flow, External Backlinks, Referring Domains,
«URL параметры»: Trust Flow, Citation Flow, External Backlinks, Referring Domains.

По API Google получены значения показателей для мобильной и десктопной версий: FCP, FID, LCP, CLS, а также Mobile Score и Desktop Score Google PageSpeed Insights.

Показатели для мобильной и десктопной версий: FCP, FID, LCP, CLS, а также Mobile Score и Desktop Score Google PageSpeed Insights, полученные по API Google в Netpeak Checker

Поскольку основная проблема связана с временным интервалом (датой создания сайта и датой запуска нового центра для издателей), из Whois я собрал данные по показателям Creation Date и Root Domain.

После сбора и чистки всех данных осталось 18588 ссылок из вкладки Новости поиска Google.

Как оказалось, все эти ссылки принадлежали 2270 сайтам, из которых только 12 (0,5%) были запущены после релиза нового центра для издателей. Часть из этих сайтов-новичков расположена на доменах-дропах, ещё часть — это известные информационные сайты, которые по какой-то причине сменили домен.

Исходя из этого можно сделать первый вывод: действительно, новый алгоритм ранжирования во вкладке Новости Google в большинстве случаев игнорирует сайты, которым меньше года.

Однако учитывая, что некоторые новые сайты всё-таки попадают в рейтинг, можно предположить, что скорее всего это не техническая проблема (баг). На мой взгляд, при обучении алгоритма BERT использовались завышенные пороги по критерию, который можно условно назвать «Дата запуска» (Date launch).

1.2. Второй этап

На втором этапе выявления возможных отличий и зависимостей я на Справочном форуме Google News отобрал 10 сайтов, представители которых жаловались на проблемы с ранжированием.

В SEMrush по этому набору я получил 7549 ссылок. Затем в Netpeak Checker собрал те же данные, которые были в первичном наборе (пункт 1.1), и соединил их все.

Полученный сводный набор разделил на два класса по двум критериям:

По возрасту сайта → Возраст: More 1 year, Less 1 year.
По признаку ранжирования → News Ranking: Yes, No.

В процессе интеллектуального анализа данных (Data Mining) я использовал «Линейный график» — это стандартный виджет визуализации, который отображает профили данных, обычно в виде упорядоченных числовых данных.

Он показал, что наилучшими атрибутами разделения классов являются трафик (Суммарный трафик по Serpstat) и количество внешних обратных ссылок (Majestic:Host параметры → External Backlinks).

На скриншоте ниже показано распределение сайтов в зависимости от даты запуска.

График: Распределение сайтов в зависимости от даты запуска

По горизонтали отображён объём трафика, по вертикали — количество внешних ссылок на сайт, размер элементов — «Host параметры»:Majestic Trust Flow. Сами сайты по дате создания разделены на два класса «До 1 года» (синие элементы) и «Больше 1 года» (красные элементы).

Как видно на скриншоте, у сайтов, которым нет ещё года, значительно меньше качественных обратных ссылок и трафика. Это логично, поскольку новые сайты не очень популярны, и обычно количество страниц с высококачественным контентом у них невелико.

Google Поиск и Discover несомненно отличаются, но имеют общие принципы «E-A-T» применительно к содержанию. Напомню, что «E-A-T» расшифровывается как «Экспертиза», «Авторитет», «Доверие» (Траст).

Учитывая это, некоторым объяснением к ранжированию сайтов в Google News может послужить абзац из Справки к Discover:

«Наши автоматизированные системы отображают контент… с сайтов, на которых есть много отдельных страниц, демонстрирующих опыт, авторитетность и надёжность (E-A-T)».

Если сравнить два издания — новое и старое, безусловно, у второго будет намного больше страниц, которые могут демонстрировать высокий уровень «E-A-T».

На мой взгляд, если смотреть на график выше, количество страниц в индексе Google в совокупности с хорошим трафиком может указывать на то, что материалы написаны экспертами. Количество обратных ссылок, передающих PageRank, формируют авторитетность страницы. Дата запуска сайта может в какой-то степени быть критерием надёжности (траста) сайта.

Используя машинное обучение, в сервисе BigML я создал модель в виде дерева решений, точность которой составляет 99,9%. Предиктором дерева решений является показатель Majestic Trust Flow: Host.

Модель в виде дерева решений, созданная в BigML

Наиболее вероятный сценарий: если Majestic TF больше 27, сайт скорее всего будет ранжироваться во вкладке Google News. Нарастить Trust Flow до такого уровня за год достаточно сложно. И вполне логично, что по этому сценарию сайты-одногодки имеют проблемы с ранжированием в Google News.

Модель в виде дерева решений, созданная в BigML. Второй сценарий

На втором по уровню вероятности сценарии видно, что даже если показатель Majestic Trust Flow в интервале от 3 до 27, но при этом сайт существует более года, высока вероятность того, что он будет ранжироваться во вкладке Новости.

Учитывая второй сценарий, можно предположить, что по модели «E-A-T» для новых сайтов первичным критерием отбора является параметр Авторитет, который во многом формируется за счёт качественных обратных ссылок (PageRank). Второй по значимости — возраст сайта (Дата запуска).

Эти выводы согласуются с результатами, ранее полученными при использовании интеллектуального анализа данных (скриншот выше, где показано распределение сайтов в зависимости от даты запуска).

Если рассмотреть самый вероятный сценарий, почему сайт не ранжируется во вкладке Новости поиска Google, мы увидим такие результаты:

Модель в виде дерева решений, созданная в BigML. Третий сценарий

С большой вероятностью можно утверждать, что сайт не будет ранжироваться в Новостях, если у него:

мало качественных обратных ссылок и ссылающихся доменов;
низкая скорость загрузки мобильной версии;
мало органического трафика.

Выводы

Многие новые сайты не отвечают техническим требованиям и политике в отношении контента Google News. Абсолютно справедливо, что такие сайты не должны ранжироваться во вкладке Новости поиска Google.

При отборе сайтов для ранжирования Google используется машинное обучение, и вероятнее всего, критерии отбора довольно высокие. Возможно, по замыслу разработчиков такие меры должны уменьшить количество спама и показов некачественных сайтов в Google News.

Сайты новостей давно приравнены к категории YMYL, и при их оценке должны применяться высокие стандарты «E-A-T».

Результаты показывают, что, скорее всего, важными сигналами ранжирования являются:

Количество и качество обратных ссылок — основной сигнал.
Траст и все элементы, которые его формируют, в том числе дата запуска (возраст) сайта.
Уровень органического трафика сайта, что видимо коррелирует с уровнем интереса к публикациям и экспертностью авторов (издания).

Мне не совсем понятно, почему ваш сайт , эмодзи, который был в конце отзыва, а именно этот https://emojipedia.org/ok-hand/ заменил на 4 знака вопроса, нельзя использовать их в ответе, режьте сразу в форме с предупреждением, эмодзи НЕЛЬЗЯ использовать в ответах. А то смысл моего коммента о проделанной работе Вячеслава, теперь немного странно выглядит.

Отличный материал, благодарю! Скажите, пожалуйста, а имеет ли смысл для улучшения ситуации использовать какие-то сторонние технические наработки. Скажем, недавно попадался на глаза продукт для Google News от Yoast.

Добрый день. На мой взгляд, какие-то сторонние плагины или скрипты могут в целом улучшить качество сайта, подачу самих новостей, но это вряд ли кардинально изменит ситуацию для новых сайтов. Если вы посмотрите на официальный ответ https://support.google.com/news/publisher-center/thread/71702189 на многочисленные жалобы издателей, то по нему видно, что в ближайшее время Google не намерен что либо менять.

"На мой взгляд, при обучении алгоритма BERT использовались завышенные пороги по критерию, который можно условно назвать «Дата запуска» (Date launch)". BERT это не алгоритм. Это техническая система, условно, для улучшения понимания человеческого письменного языка. Увы, для компьютера все также сложно понимать что люди понимают под тем, что они пишут. Банальные предлоги, артикли, которые наш мозг улавливает вообще без осознания (помните эксперимент с перестановкой слов, что никак не влияло на правильность прочтения текста испытуемыми?) может серьезно озадачить все системы Google Search. Это максимально простыми словами. Есть несколько хороших статей на английском, которые объясняют принцип работы BERT. Проблема новых доменов и попыток натянуть на дроп в истории поисковых сигналов. Поэтому контентщикам и сеошникам надо сильно постараться, чтобы зайти с новым доменом в топ. И то, это не гарантирует продолжительного результата. По новостям очень все сложно и тут Google алгоритмы не столько помогают, сколько отчаянно вредят, о чем "новостники" периодически громко кричат и пинают Google, но в ответ, тишина. Достаточно вспомнить скандалы вокруг перепоста новостей с мелких сайтов крупными ресурсами. Google посоветовал использовать cross-domain canonical, но оказалось, что это не работает. Насколько там оно порешалось я даже не утруждался узнавать (думаю, нет).

Добрый день. Спасибо за комментарий. Есть много определения, что такое BERT. Возьмем, например, несколько официальных публикаций. 1) "Основанная на нейронных сетях техника предварительного обучения обработки естественного языка (NLP)". https://blog.google/products/search/search-language-understanding-bert 2) "мы представляем Transformer, новую архитектуру нейронной сети, основанную на механизме самовнимания, который, по нашему мнению, особенно хорошо подходит для понимания языка". https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html Я думаю это уже не секрет, но новый алгоритм ранжирования в Новостях, был запущен практически одновременно с запуском BERT (и это, наверно, не случайно), хотя сам новый инструмент Publisher был запущен позже. Для меня в этих определениях являются ключевыми слова "Нейронная сеть". Если представить эту нейронную сеть в виде новогодней елки, то BERT - самая новая и самая красивая игрушка на ней. В моем представлении, нейронная сеть Google обучила и продолжает обучать BERT и множество других алгоритмов Google, которые используют ИИ. Среди них и обновленный алгоритм ранжирования URL во вкладке новости. Мы конечно можем только гадать, как работают алгоритмы и нейросети Google, но мне кажется, что на этапе предварительного обучения сети все равно маркировались данные (присваивались определенные ярлыки и т.п.). И я предполагаю, что избранная для нового алгоритма Новостей модель ИИ содержит ряд завышенных порогов. Что в итоге приводит к тому, что вероятность нормального ранжирования новых сайтов во вкладке новости близка к нулю. Естественно, это лишь мое видение того, что сейчас происходит с новыми сайтами в Новостях.

Извините, ничего не понял из того, что Вы написали. Опустим нейронные сети, ИИ и т.п. "машинное обучение", Вы их не совсем верно интерпретируете. Объясню на примере одной из ссылок, которую Вы дали. Есть фраза: “I arrived at the bank after crossing the river” Для программы, по сути кода на Пайтоне, слова банк, bank, der bank ничем не отличаются. Но, для английского языка a/the bank это и берег реки, и крен, и отмель, и финансовое учреждение. Смотрите, как тупенький API Demo интерпретирует сущности https://prnt.sc/urbdun хотя семантически почти все верно разложил https://prnt.sc/urber0 Это скрины с Natural Language API demo Google Cloud. Я ещё пользуюсь IBM Watson, там также все плохо, но можно играть кодом и писать простенькие вещи для понимания того, как поисковики обработают текст. Как мы видим, есть проблема и она серьезная. Это влияет на выдачу, хотя Google использует и PageRank (да, именно он спасает Google, потому что порядка 20-30% запросов в день, новые и точно не использует для ранжирования, а известную версию, вообще никогда не использовал). Также там есть другие системы, но, как мы знаем, контент - король. Собственно BERT обучается понимать, где bank это финансовое учреждение, где берег реки, а где мель. А это ещё может быть кино, ТВ шоу или книга, статья, недавнее событие (новость) и т.п. И собственно что из этого выдавать, в т.ч. помогает решать BERT. И его вот обучают "понимать" и "различать". К ранжированию это не имеет никакого отношения. Грубо говоря, BERT одна из систем, которая принимает решение с какой полки надо взять информацию, из какого каталога в ответ на запрос. Это достаточно интересная, но сложная тема, которая тянется из военных разработок (распознование объектов на снимках со спутников) эдак с годов 1970-х. А сами основы закладывались в 1950-х. По сути, тут нет большой разницы между "автопилотом" Теслы и системами типа BERT. Видео про оучение Теслы достаточно много :) Приблизительно также выглядит и "обучение" BERT.

Сотрудники Google говорят, что поведенческие факторы не используются в ранжировании. Но SEO специалисты им не верят. И действительно, есть патенты на т.н. "кликрейт" и т.п. Даже есть патент на распознавание реакции лица на поисковую выдачу с камеры смартфона. Да-да, и это патент Google. Но чем Вы меряете поведенческие? На какой выборке они могут использоваться? Эти и другие вопросы ставят под сомнение большинство теорий и гипотез в SEO. Pagespeed это не Web Core Vitals и это незначительные факторы ранжирования. Достаточно взять любой запрос и просто взять первые 20-30 сайтов из выдачи. Проще говоря, это сигнал для собственника сайта чтобы проверить, а не monkey coder ли его веб разработчик. Потому что используют тонны javascript, 100500 запросов на сервер и т.п. без какой-либо оптимизации. Я уже молчу о том, что в порядке вещей загружать картинки по 1-2 Мб. Сотрудники Google распределены так, чтобы знать только в своей узкой области. Конечно, для спаммеров и этого может быть достаточно, но там действительно сложная система. И тут такого нет, что здесь прикрутил, там вылезло. Потому что на "здесь прикрутил" найдется две-три сотни факторов поисковой системы, миллион SEO специалистов и десятки миллионов ищущих, которые все это прикрутил "поломают". И где оно вылезет, и как, не ясно. К сожалению, почти так.

Да, официальная позиция состоит в том, что так называемые поведенческие факторы — это слишком "шумно" чтобы быть фактором ранжирования. Но я думаю, что это будет вам интересно https://t.me/seo_inside/17

Да, я читал статью, она вышла относительно недавно, Билл Славски, если не ошибаюсь. Там описываются все "спорные" теории и патенты под них. Судя по всему, отрывок взят оттуда. На самом деле это работает чуть сложнее. Давайте представим обычную ситуацию. Я ищу информацию о процессоре мобильного телефона. Скорее всего я перечитаю не меньше 10-ка статей, просмотрю полдюжины видео. Но из какой информации я получу полный ответ? Вариантов много. Возможно это будет первая статья, по которой я кликнул. Возможно, я получу информацию из двух статей и одного видео. Действительно, строить вокруг этого систему ранжирования, мягко говоря, неуместно. Поэтому модель ранжирования строится на "намерение" и прогнозе/предсказании того, что "контент подходящий". И первое и второе, конечно, далеко от идеала. Какие-то запросы, типа "Столица Франции" это относительно легко. Какие-то, "нужен ли загранпаспорт гражданину Гвинеа-Бисао для полета в Бразилию на неделю", не совсем. В том и проблема, что поисковая машина это набор множества систем, которые состоят из подсистем, что делает её поведение малопрогнозируемым. И делать ставку на что-то очень сложно. Тут надо всегда комплексное решение. Этого очень не хватает в отрасли.