Я уже писал о том, что в своей работе активно использую продукты компании Netpeak. По качеству их софт лучший на рынке.

Не так давно мне потребовалось найти пустые страницы на одном из клиентских проектов. Расскажу вкратце о сайте.

Это большой (несколько десятков тысяч страниц) интернет-магазин с тысячами категорий товаров. Вышло так, что в некоторых категориях отсутствуют товары и соответственно они выдают пустые страницы.

Задача контент менеджера – наполнить эти страницы товарами, чтобы повысить ценность страниц в “глазах” поисковых систем.

Моя же задача была найти все такие страницы.

Алгоритм действий

Прежде всего я определил типовые страницы, которые нужно исключить из парсинга. Далее, создал условие, согласно которому, все страницы, содержащие вхождения “Купить за” получают значение 1, а страницы, на которых отсутствуют такие вхождения получают значение 0.

Настройка парсинга вхождений “Купить за”

Настройка, отсеивающая типовые некаталожные страницы

Сразу отмечу, что парсить можно разными способами, в том числе с помощью регулярных выражений. Я пошел простым путем, самое главное же решить задачу 🙂

Таким образом я отловил более 1000 пустых страниц. Сейчас работа за контент менеджером.

Подробнее о парсинге и регулярных выражениях с примерами можно почитать в блоге компании Netpeak.