Сайт на 10 миллионов страниц. История одного теста.

Иногда на Телдери попадаются интересные проекты, которые можно попытаться повторить. Или тупо спиздить. Кому как больше нравится.

Именно поэтому не стоит там в открытую продавать сайты с интересной идеей, до которой еще мало кто допёр.

Как-то одним зимним пасмурным днем я рефрешил страницы биржи в поисках интересных лотов. Мое внимание привлек типа «сервис», который предоставляет информацию об ИП и ООО.

Короче, чувак где-то надыбал базу на 10 гб (скорее всего украл по «льготной цене»), в которой была инфа о контрагентах.

Все это дело натянули на ВП и засунули в индекс. По итогу Яндекс сожрал аж 10 миллионов страниц.

В данный момент там следующая картина:

То есть, сайт живет неплохой такой жизнью, собирая трафик по НЧ.

Зимой там было 6-7к трафа, но сейчас я думаю и того больше. Возможно, около десятки.

Монетизация — адсенс, РСЯ.

В какой-то момент владелец сайта перешел полностью на РСЯ. Стало выходить до 1к\сутки.

Неплохой заход, да?

Все сделано просто, практически на коленке, немножечко «не законно», но весьма прибыльно, если считать итоговый выхлоп. К тому же, судя по всему, этот сайт сменил владельца и первый хозяин получил +300к в кошелек (ну или около того).

В какой-то момент я даже хотел купить эту базу у владельца сайта, но потом подумал. Так вот же сайт, передо мной, у него даже сайтмап есть сгенерированный. Почему бы не попробовать его спарсить и посмотреть, как отнесутся ПС к моим поделкам?

Но все оказалось не так просто, как в моих влажных фантазиях.

Что я сделал.

Сначала спарсил всю карту сайта. Получил 10 млн ссылок.

Потом зарегал 8 дропов и залил туда вордпресс.

Ок, ссылки есть, вордпресс есть, ставим парсер, который я использовал в этом эксперименте и поехали.

Плодить 10 огромных баз было бы ошибкой, поэтому я сделал один основной сайт, а остальные коннектились к его базе.

Здесь возникло несколько проблем, одной из которых было то, что с таким подходом на всех сайтах получались одинаковые заголовки постов. База то одна.

Эту проблему решили написанием регулярок для парсера, которые вырезали лишнее из тайтлов и оставляли только нужное. А уже потом через шаблоны вордпресса мы разбавили тайтлы разными словами, чтобы хоть как-то их уникализировать.

Пришлось немного заморочиться.

И вроде бы все было нормально, пока база не перевалила за 40к записей. Парсер начал тупить, тормозить, парсить дубли. Я не знаю, это косяк именно плагина или большая вордпресс база начинает себя вести не очень очевидно, но, помучавшись, я решил стопануть это дело и попробовать найти другой подход.

Второй заход к решению проблемы был через Content Downloader.

Я сделал проект для него, который позволял парсить в txt посты, сохраняя тайтлы и h1. Ну все по красоте. Расчет был на то, что в CD есть функция создания файла импорта для WordPress. Я хотел парсить, создавать xml файлы, которые можно импортнуть и частями фигачить посты в базу.

Но и здесь ждала засада. CD просто не рассчитан на работу с такими объемами данных. Он даже не может нормально сформировать файл на 10к записей для импорта в вордпресс. Разработчик подтвердил, что на такую задачу этот функционал не рассчитан.

Опять облом.

Также через CD я хотел зайти со стороны генерации простых html сайтов из спаршенных с сайта страниц, но отбросил эту идею, так как там получаются просто дикие объемы файлов (миллионы штук).

Идею с парсингом сайта донора и постингом сразу в базу данных WordPress я не осилил, потому что рукожоп.

Что по итогу.

Все 8 сайтов так и замерли на отметке 40к+ постов и я на них забил. Только недавно решил повесить счетчики на эти поделки, чтобы посмотреть, есть ли там жизнь.

Оказалось, что кто-то туда даже заходит.

На пике (во второй день установки счетчика) было 89 хостов. Странно, что индексация в Яндексе в разы выше, но вот основной трафик идет из Гугла. Скорее всего связано с тем, что дропы я подбираю именно под эту ПС.

Разработчик плагина парсера Гарри уверял меня, что его разработка прекрасно работает с большими БД и тысячами записей, но мой опыт показал, что когда база ВП весит 300 мб — у него начинаются проблемы. Опять же, не отрицаю, что кривизна моих рук имеет тут определяющее значение.

Если бы удалось получить хотя бы по 1 млн записей на этих сайтах, то, скорее всего, ситуация с трафом через какое-то время была бы повеселее.

Но мне оказалось легче забить, чем дожимать до конца этот тест (:

P.S. Я не попробовал проксировать сайт. Возможно, это самый легкий и самый профитный (но это не точно) путь. Кто знает. Кто знает.