Парсер Яндекс-Каталога

Удобный сервис сбора данных с Яндекс.КаталогаСегодня в очередной раз задумался над вопросом покупки ссылок на бирже sape — это самый простой и быстрый способ раскрутки сайтов, роста позиций в выдаче и показателя тИЦ.

Парсер Яндекс Каталога поможет собрать список url сайтов из определенной категории Яндекс Каталога. Для положительного результата работы парсер нужно:

  1. зайти в Яндекс.Каталог,
  2. выбрать интересующую вас категорию
  3. скопировать url страницы категории в поле парсера Яндекс.Каталога ниже

Внимание! Скрипт парсера Яндекс.Каталога работает исправно. Работает через прокси — в них только могут быть проблемы. Если есть какие то ошибки — пишите в комментарии.

Часто спрашивают, почему скрипт парсит только первые 101 страницу. Дело в том, что сам Я.Каталог выдает только 101 страницу, даже если сайтов в категории на много больше. Единственное возможное решение — указываете программе уточняющие категории, а не общие, чтобы хоть так собрать всю базу.

К примеру, для того, чтобы парсить в YaCa категорию «Ремонт и отделка», url которой http://yaca.yandex.ru/yca/cat/Business/Construction/Renovation/ , в поле парсера Яндекс.Каталога копируем «Business/Construction/Renovation«

[profit]


http://yaca.yandex.ru/yca/cat/

Скрипт «парсер Яндекс Каталога» взят с http://devaka.ru и доработан мною. Версия полностью рабочая на начало мая 2010 года. Скрипт парсера Яндекс.Каталога поможет легко купить ссылки со страниц СДЛ. Приятного шоппинга.

Кстати, вы и сами можете подать заявку на бесплатное добавление вашего проекта в Я.Каталог и тогда мы уже потом будем парсить Вас =)

Update 08.05 Если вы хотите, чтобы парсер Яндекс.Каталога работал нормально- добавляйте статью в соц. сети. Если будет большой интерес, значит и следить я за ним буду исправно.

Update 17.12 Если парсер не работает — проблема в поломанных прокси. Прокси-лист со временем устаревает, а обновлять ежедневно нет возможности.

Последнее обновление proxy от 08.05.2012

Полезная статья? Расскажите о ней своим друзьям в вашей любимой социальной сети.
Это будет лучше, чем просто "спасибо" в комментариях :)
69 комментариев к Парсер Яндекс-Каталога
  1. Игорь2 Ответить

    такой бы парсер ещё под региональную выдачу.

    • buzzman Ответить

      Региональную выдачу чего? Яндекс.Каталога или же выдачу результатов поиска — вещи то разные. У меня и парсер выдачи результатов поиска Яндекса есть))

  2. Игорь2 Ответить

    региональный каталог.
    вот к примеру все сайты Яка по Яр. области
    /yca/geo/Russia/Central/Yaroslavl_District/
    а потом уже название категории
    То есть урл по умолчанию сменить
    с /yca/cat/ на /yca

    • buzzman Ответить

      Понял, Игорь, все понял, на днях постараюсь поправить и протестить работоспособность в этом профиле.

  3. Alex Ответить

    Единственный работающий скрипт, который нашел, не могли бы Вы выложить его для скачивания или переслать мне на email. Заранее спасибо.

    • buzzman Ответить

      Спасибо, я рад отличится от всех остальных и быть единственным рабочим)
      Поэтому, Alex, предлагаю лучше добавить ссылку в закладки и чаще посещать мой блог — ведь для этого я и стараюсь.

  4. Игорь2 Ответить

    жду не дождусь изменённого парсера(

  5. Игорь2 Ответить

    О! спасибо! действительно работает!

  6. AleksRyzhov Ответить

    Приветствую! Можно переделать как-нибудь данный парсер, чтобы он парсил ЯК по запросам?

    • buzzman Ответить

      Да, думаю можно и без особых проблем, но это, как говорится, «за отдельную плату» — просто напросто сейчас времени в обрез и надобности личной нет в этом.

      П.С. А что за шаблон на вашем блоге, Александр?

  7. Кирилл Ответить

    а скриптик скачать можно ?

    • buzzman Ответить

      Кирилл, ранее уже был такой вопрос, на данный момент такой возможности нет. предлагаю добавить страницу в закладки и пользоваться в свое удовольствие.

  8. Ehan Ответить

    Хотел, чутка попарсить, а парсер че-то не работает…. Подождем….. (его маму :-))

    • buzzman Ответить

      Если выходит ошибка «Service Temporarily Unavailable», то проблема в скоцком хостинге. Буду менять, но чуть погодя..

  9. Ehan Ответить

    Именно она, как не преди так какой-нибудь геморой, скрипт хороший, но его работоспособность как выяснилось с таким хостингом стремиться к нулю!!! Очень жаль. В поршлый раз обламался и сейчас обламался…

    buzzman*
    Июнь 10, 2010 ссылка

    Спасибо, я рад отличится от всех остальных и быть единственным рабочим)
    Поэтому, Alex, предлагаю лучше добавить ссылку в закладки и чаще посещать мой блог – ведь для этого я и стараюсь.

    Получается, что старания напрасны, ИМХО.

    • buzzman Ответить

      Сейчас облегчил чуть сервер и настроил кое где кеш. Просто напросто сайт который все грузит сейчас не так то просто перенести, да и времени нет в связи с моей женитьбой.

  10. akveduk Ответить

    hi!
    есть возможность парсить? http://yaca.yandex.ua
    заранее спасибо

    • buzzman Ответить

      Думаю «да», только адрес http://yaca.yandex.ua надо вшить прямо в код. Уже нашли решение или нет? Могу помочь.

    • Leo Ответить

      так как yandex.ua парсить?

      • buzzman

        Лео, в данном Яндекс.Парсере не предусмотрена динамическая смена домена Yandex’а — скачайте парсер и настройте на своем проекте. Если не получиться — обращайтесь, постараюсь помочь.

  11. Никита Ответить

    Скажите, почему когда я парсю большую категорию (более 500 страниц) то всё заканчивается после 101й страницы парсинга..?

    • buzzman Ответить

      Честно говоря уже не помню кода скрипта, но тут 2 варианта. Или заканчивается максимально допустимое время обработки запроса или же стоит ограничение на 100 страниц каталога.

    • Rosomak Ответить

      У меня та же проблема, на 101 странице останавливается. Так что добавить ссылку в закладки и чаще посещать ваш блог пока не выходит, а жаль, думал, что наконец-то нашел нормальный рабочий скрипт.

  12. buzzman Ответить

    Друзья, а кто нибудь заходил на 101 страницу Я.Каталога в какой-нидь тематике?
    http://yaca.yandex.ru/yca/cat/Entertainment/Games/101.html
    Там написано мелким шрифтом «Подождите, пожалуйста. Тут надо серьезно подумать…»
    Я не знаю, как долго они думают «серьезно», но данных я так и не получил.
    Так что парсер Яндекс.Каталога по прежнему рабочий и отрабатывает на 99.9%.

  13. [...] парсер яндекс каталога найдете по этому адресу: buzzman.ru/parse... buzzman.ru/jexr/shakin.ru/seo/my-ggl-secrets.html
  14. Asterwell Ответить

    Каждый раз в результатах выдается следующее:
    error: connect() timed out!
    и дает ссылку на сайт — около 200 строчек, когда должно быть 800.

    • buzzman Ответить

      Asterwell, укажите рубрику Яндекс.Каталога, которую хотели бы спарсить.

    • Малив Ответить

      У меня тоже такая проблема. Хочу спарсить /Business/Production/
      но после долгих раздумий выдает
      error: connect() timed out!

      • buzzman

        Боюсь, что после обзора Шакина и наплыва желающих Яндекс забанил мой ip. Думаю сегодня/завтра решить проблему и прикрутить proxy. Вот только еще список белых прокси где то надыбить надо.

    • Asterwell Ответить

      Вы же не даете скрипт, вот все и ломятся к Вам =)
      Кстати, я спарсил нужные мне рубрики ещё вчера.
      Может дело не в бане?

  15. Александр Ответить

    Ваш комментания должен сначала посмотрит интернет- судья! — забавное слово «комментания»!

  16. buzzman Ответить

    Только что запустил — у меня сработало. Дописал пару строк, чтобы скрипт работал через прокси, может поможет, хотя проксики фришные — могут и лагать. А вообще ошибка «connect() timed out!» возникает, когда Яндекс.Каталог долго не отвечает — в чем проблема не знаю. Просматривая логи могу сказать, что пара десятков человек собрали сегодня всё, что им нужно)

    • Малив Ответить

      У меня все сработало сегодня, примерно в 14-15 часов

  17. Александр Ответить

    Имею жгучее желание воспользоваться эти парсером, но яндекс видимо блочит… Нет ли у вас новой версии??

    • buzzman Ответить

      Тут уже проблема, думаю, в proxy — хреновые они. Сейчас гляну. Ну да, заменил список прокси и все заработало.
      Со временем добавлю дополнительное поле, чтобы пользователь сам какой нидь прокси, а программа через него пыталась бы собрать базу.

  18. Marishka Ответить

    error: connect() timed out! error: connect() timed out!error: Operation timed out after 60000 milliseconds with 0 bytes received error: connect() timed out!error: connect() timed out!error: connect() timed out!

    Может не будете мучить общественность? Ну что Вам стоит выложить парсер в открытый доступ для скачивания? Пожалуйста.

  19. Оксана Ответить

    Не получается( эта ошибка не исчезает.

    • buzzman Ответить

      В связи с большим кол-ом посетителей и малым количеством proxy Яндекс, по- видимому, блокирует доступ и скрипт не получает от него ответ(

    • Оксана Ответить

      У меня получилось 3 подраздела скачать. Если долго мучиться — что-нибудь получится!
      Если бы не этот парсер, несколько дней бы пропыхтела или забила совсем. Спасибо за такую возможность все сделать быстро!

  20. Евгений Ответить

    Привет))) Большое спасибо за сервис !!!
    Твои труды экономят массу времени)))
    Мне кажется, что посещаемость твоего сервиса будет только
    возрастать, может имеет смысл подумать как скинуться
    по копейке с народа на покупку хороших PROXY.
    Еще раз спасибо !! )))

    • buzzman Ответить

      Спасибо Евгений. К сожалению в нашей стране с «пожертвованиями» как то глухо, но кнопочку «Дай 5» поставлю — может и накопим)

  21. Ben Ответить

    Здравствуйте!
    Такая проблема, начинаю парсить, всё хорошо, когда процесс закончен, перехожу по ссылки что бы скачать .txt фаил выдаётся следующее сообщение:
    «Not Found

    The requested URL /YacaParser/files/Entertainment_Games.txt/ was not found on this server.»

    В чём может быть проблема?

    • buzzman Ответить

      Ben, проблема была опять таки в прокси — почистил поломанные и теперь все работает. Надо бы задуматься и выложить скрипт парсера в свободный доступ, народу на радость)

    • Ben Ответить

      Так выкладывай))) и народ будет доволен и тебе меньше гемороя)))
      Хотя я для себя нашел неплохую программку, которая отлично парсит и не надо скрипты ставить)))

  22. Кирилл Ответить

    что не так делаю? первый раз 20 сайтов сохранил, второй раз вообще ни чего не обнаружил! — может вы выложите свой скрипт все же для людей

    • buzzman Ответить

      Кирилл, только что спарсил 60 страниц предложенной в статье категории каталога — без проблем. Однако учитывая большое кол-во желающих скрипт выложу «как есть». Скоро.

  23. Сергей Ответить

    Народ, дайте скорости)

    • buzzman Ответить

      Решил дать сам скрипт парсера — будут вопросы — пишите.

  24. Федор Ответить

    Что-то парсер не работает, уже 3-ий день захожу… Обидно.

    • buzzman Ответить

      Федор, вся проблема с поломанных прокси. Прокси- лист со временем устаревает и его надо обновлять. Сейчас обновил и проверил — у меня тестовый раздел собрался без проблем.

  25. Мария Ответить

    Спасибо огромное! Офигенская штуковина. Будем пользоваться.

    • buzzman Ответить

      Мария, рад был помочь. Приятно, что мои старания ценят.

  26. ActMan Ответить

    Ну да. Вот пример
    Категория:
    proxy: ms.portal.uh.cz:3128
    Страница #1/83 файла files/Portals.txt — Сохранена…
    Страница #2/83 файла files/Portals.txt — Сохранена…
    ….
    Страница #82/83 файла files/Portals.txt — Сохранена…
    Страница #83/83 файла files/Portals.txt — Сохранена…
    Теперь вы можете скачать файл Portals.txt!
    И где он? http://buzzman.ru/YacaParser/files/Portals.txt

    • buzzman Ответить

      Ну, сложно сказать, ActMan, где он у вас.. у меня вполне такой достаточный список по указанной вами ссылке открывается)

  27. Кемеровский Ответить

    error: couldn’t connect to host

    • buzzman Ответить

      Ну это уже ошибка подключения. Или проксик сдох, или yandex его забанил. В любом случае проксики бесплатные и они не вечны, как и все в этом мире )) — сейчас обновлю снова и парсите, друзья, на здоровье))

  28. Dispetcher Ответить

    Обновите прокси, «работающий» сервис крайне полезен!

    • buzzman Ответить

      Dispetcher, спасибо, что напомнили. Сейчас обновлю. Приятного пользования.

  29. Подшипник Ответить

    У Вас еще рабочий парсер,спасибо за ответ.

    • buzzman Ответить

      Сейчас уже редко захожу на блог, но парсер вроде как работает с переменным успехом (в логах есть данные о скаченных файлах) — сегодня обновил проксики- посмотрим, сколько продержутся

Добавить комментарий

** Ваш email никогда не будет опубликован.