Сегодня в очередной раз задумался над вопросом покупки ссылок на бирже sape — это самый простой и быстрый способ раскрутки сайтов, роста позиций в выдаче и показателя тИЦ.
Парсер Яндекс Каталога поможет собрать список url сайтов из определенной категории Яндекс Каталога. Для положительного результата работы парсер нужно:
- зайти в ,
- выбрать интересующую вас категорию
- скопировать url страницы категории в поле парсера Яндекс.Каталога ниже
Внимание! Скрипт парсера Яндекс.Каталога работает исправно. Работает через прокси — в них только могут быть проблемы. Если есть какие то ошибки — пишите в комментарии.
Часто спрашивают, почему скрипт парсит только первые 101 страницу. Дело в том, что сам Я.Каталог выдает только 101 страницу, даже если сайтов в категории на много больше. Единственное возможное решение — указываете программе уточняющие категории, а не общие, чтобы хоть так собрать всю базу.
К примеру, для того, чтобы парсить в YaCa категорию «Ремонт и отделка», url которой http://yaca.yandex.ru/yca/cat/Business/Construction/Renovation/ , в поле парсера Яндекс.Каталога копируем «Business/Construction/Renovation«
Скрипт «парсер Яндекс Каталога» взят с http://devaka.ru и доработан мною. Версия полностью рабочая на начало мая 2010 года. Скрипт парсера Яндекс.Каталога поможет легко купить ссылки со страниц СДЛ. Приятного шоппинга.
Кстати, вы и сами можете подать заявку на вашего проекта в Я.Каталог и тогда мы уже потом будем парсить Вас =)
Update 08.05 Если вы хотите, чтобы парсер Яндекс.Каталога работал нормально- добавляйте статью в соц. сети. Если будет большой интерес, значит и следить я за ним буду исправно.
Update 17.12 Если парсер не работает — проблема в поломанных прокси. со временем устаревает, а обновлять ежедневно нет возможности.
Последнее обновление proxy от 08.05.2012
62 комментариев к Парсер Яндекс-Каталога
Игорь2 09.06
такой бы парсер ещё под региональную выдачу.
buzzman 09.06
Региональную выдачу чего? Яндекс.Каталога или же выдачу результатов поиска — вещи то разные. У меня и парсер выдачи результатов поиска Яндекса есть))
Игорь2 09.06
региональный каталог.
вот к примеру все сайты Яка по Яр. области
/yca/geo/Russia/Central/Yaroslavl_District/
а потом уже название категории
То есть урл по умолчанию сменить
с /yca/cat/ на /yca
buzzman 09.06
Понял, Игорь, все понял, на днях постараюсь поправить и протестить работоспособность в этом профиле.
Alex 10.06
Единственный работающий скрипт, который нашел, не могли бы Вы выложить его для скачивания или переслать мне на email. Заранее спасибо.
buzzman 10.06
Спасибо, я рад отличится от всех остальных и быть единственным рабочим)
Поэтому, Alex, предлагаю лучше добавить ссылку в закладки и чаще посещать мой блог — ведь для этого я и стараюсь.
Игорь2 17.06
жду не дождусь изменённого парсера(
buzzman 20.06
Руки дошли только вот вот, однако, самое интересное, что в скрипте и править ничего не пришлось. Просто напросто в ЯКе, что:
, что
- это одна и та же страница. А значит добавляйте региональный раздел и собирайте базу. Приятного просмотра)
Игорь2 20.06
О! спасибо! действительно работает!
buzzman 20.06
Пользуйтесь, Игорь, на здоровье)
AleksRyzhov 27.06
Приветствую! Можно переделать как-нибудь данный парсер, чтобы он парсил ЯК по запросам?
buzzman 27.06
Да, думаю можно и без особых проблем, но это, как говорится, «за отдельную плату» — просто напросто сейчас времени в обрез и надобности личной нет в этом.
П.С. А что за шаблон на вашем блоге, Александр?
Кирилл 29.06
а скриптик скачать можно ?
buzzman 29.06
Кирилл, ранее уже был такой вопрос, на данный момент такой возможности нет. предлагаю добавить страницу в закладки и пользоваться в свое удовольствие.
Ehan 02.07
Хотел, чутка попарсить, а парсер че-то не работает…. Подождем….. (его маму :-))
buzzman 06.07
Если выходит ошибка «Service Temporarily Unavailable», то проблема в скоцком хостинге. Буду менять, но чуть погодя..
Ehan 07.07
Именно она, как не преди так какой-нибудь геморой, скрипт хороший, но его работоспособность как выяснилось с таким хостингом стремиться к нулю!!! Очень жаль. В поршлый раз обламался и сейчас обламался…
buzzman*
Июнь 10, 2010 ссылка
Спасибо, я рад отличится от всех остальных и быть единственным рабочим)
Поэтому, Alex, предлагаю лучше добавить ссылку в закладки и чаще посещать мой блог – ведь для этого я и стараюсь.
Получается, что старания напрасны, ИМХО.
buzzman 09.07
Сейчас облегчил чуть сервер и настроил кое где кеш. Просто напросто сайт который все грузит сейчас не так то просто перенести, да и времени нет в связи с моей женитьбой.
akveduk 09.08
hi!
есть возможность парсить?
заранее спасибо
buzzman 11.08
Думаю «да», только адрес надо вшить прямо в код. Уже нашли решение или нет? Могу помочь.
Leo 12.02
так как yandex.ua парсить?
buzzman 19.02
Лео, в данном Яндекс.Парсере не предусмотрена динамическая смена домена Yandex’а — скачайте парсер и настройте на своем проекте. Если не получиться — обращайтесь, постараюсь помочь.
Никита 16.08
Скажите, почему когда я парсю большую категорию (более 500 страниц) то всё заканчивается после 101й страницы парсинга..?
buzzman 24.08
Честно говоря уже не помню кода скрипта, но тут 2 варианта. Или заканчивается максимально допустимое время обработки запроса или же стоит ограничение на 100 страниц каталога.
Rosomak 03.09
У меня та же проблема, на 101 странице останавливается. Так что добавить ссылку в закладки и чаще посещать ваш блог пока не выходит, а жаль, думал, что наконец-то нашел нормальный рабочий скрипт.
buzzman 21.09
Друзья, а кто нибудь заходил на 101 страницу Я.Каталога в какой-нидь тематике?
Там написано мелким шрифтом «Подождите, пожалуйста. Тут надо серьезно подумать…»
Я не знаю, как долго они думают «серьезно», но данных я так и не получил.
Так что парсер Яндекс.Каталога по прежнему рабочий и отрабатывает на 99.9%.
Asterwell 13.04
Каждый раз в результатах выдается следующее:
error: connect() timed out!
и дает ссылку на сайт — около 200 строчек, когда должно быть 800.
buzzman 13.04
Asterwell, укажите рубрику Яндекс.Каталога, которую хотели бы спарсить.
Малив 14.04
У меня тоже такая проблема. Хочу спарсить /Business/Production/
но после долгих раздумий выдает
error: connect() timed out!
buzzman 14.04
Боюсь, что после обзора Шакина и наплыва желающих Яндекс забанил мой ip. Думаю сегодня/завтра решить проблему и прикрутить proxy. Вот только еще список белых прокси где то надыбить надо.
Asterwell 14.04
Вы же не даете скрипт, вот все и ломятся к Вам =)
Кстати, я спарсил нужные мне рубрики ещё вчера.
Может дело не в бане?
Александр 15.04
Ваш комментания должен сначала посмотрит интернет- судья!— забавное слово «комментания»!buzzman 16.04
Спасибо, поправил :)
buzzman 15.04
Только что запустил — у меня сработало. Дописал пару строк, чтобы скрипт работал через прокси, может поможет, хотя проксики фришные — могут и лагать. А вообще ошибка «connect() timed out!» возникает, когда Яндекс.Каталог долго не отвечает — в чем проблема не знаю. Просматривая логи могу сказать, что пара десятков человек собрали сегодня всё, что им нужно)
Малив 15.04
У меня все сработало сегодня, примерно в 14-15 часов
Александр 22.04
Имею жгучее желание воспользоваться эти парсером, но яндекс видимо блочит… Нет ли у вас новой версии??
buzzman 22.04
Тут уже проблема, думаю, в proxy — хреновые они. Сейчас гляну. Ну да, заменил список прокси и все заработало.
Со временем добавлю дополнительное поле, чтобы пользователь сам какой нидь прокси, а программа через него пыталась бы собрать базу.
Marishka 23.04
error: connect() timed out! error: connect() timed out!error: Operation timed out after 60000 milliseconds with 0 bytes received error: connect() timed out!error: connect() timed out!error: connect() timed out!
Может не будете мучить общественность? Ну что Вам стоит выложить парсер в открытый доступ для скачивания? Пожалуйста.
Оксана 25.04
Не получается( эта ошибка не исчезает.
buzzman 27.04
В связи с большим кол-ом посетителей и малым количеством proxy Яндекс, по- видимому, блокирует доступ и скрипт не получает от него ответ(
Оксана 27.04
У меня получилось 3 подраздела скачать. Если долго мучиться — что-нибудь получится!
Если бы не этот парсер, несколько дней бы пропыхтела или забила совсем. Спасибо за такую возможность все сделать быстро!
Евгений 03.06
Привет))) Большое спасибо за сервис !!!
Твои труды экономят массу времени)))
Мне кажется, что посещаемость твоего сервиса будет только
возрастать, может имеет смысл подумать как скинуться
по копейке с народа на покупку хороших PROXY.
Еще раз спасибо !! )))
buzzman 10.06
Спасибо Евгений. К сожалению в нашей стране с «пожертвованиями» как то глухо, но кнопочку «Дай 5″ поставлю — может и накопим)
Ben 16.07
Здравствуйте!
Такая проблема, начинаю парсить, всё хорошо, когда процесс закончен, перехожу по ссылки что бы скачать .txt фаил выдаётся следующее сообщение:
«Not Found
The requested URL /YacaParser/files/Entertainment_Games.txt/ was not found on this server.»
В чём может быть проблема?
buzzman 04.08
Ben, проблема была опять таки в прокси — почистил поломанные и теперь все работает. Надо бы задуматься и выложить скрипт парсера в свободный доступ, народу на радость)
Ben 04.08
Так выкладывай))) и народ будет доволен и тебе меньше гемороя)))
Хотя я для себя нашел неплохую программку, которая отлично парсит и не надо скрипты ставить)))
Кирилл 07.09
что не так делаю? первый раз 20 сайтов сохранил, второй раз вообще ни чего не обнаружил! — может вы выложите свой скрипт все же для людей
buzzman 13.09
Кирилл, только что спарсил 60 страниц предложенной в статье категории каталога — без проблем. Однако учитывая большое кол-во желающих скрипт выложу «как есть». Скоро.
Сергей 24.09
Народ, дайте скорости)
buzzman 27.09
Решил дать сам скрипт парсера — будут вопросы — пишите.
Федор 15.12
Что-то парсер не работает, уже 3-ий день захожу… Обидно.
buzzman 17.12
Федор, вся проблема с поломанных прокси. Прокси- лист со временем устаревает и его надо обновлять. Сейчас обновил и проверил — у меня тестовый раздел собрался без проблем.
Мария 18.03
Спасибо огромное! Офигенская штуковина. Будем пользоваться.
buzzman 27.03
Мария, рад был помочь. Приятно, что мои старания ценят.
ActMan 19.03
Ну да. Вот пример
Категория:
proxy: ms.portal.uh.cz:3128
Страница #1/83 файла files/Portals.txt — Сохранена…
Страница #2/83 файла files/Portals.txt — Сохранена…
….
Страница #82/83 файла files/Portals.txt — Сохранена…
Страница #83/83 файла files/Portals.txt — Сохранена…
Теперь вы можете скачать файл Portals.txt!
И где он? http://buzzman.ru/YacaParser/files/Portals.txt
buzzman 27.03
Ну, сложно сказать, ActMan, где он у вас.. у меня вполне такой достаточный список по указанной вами ссылке открывается)
Кемеровский 30.03
error: couldn’t connect to host
buzzman 02.04
Ну это уже ошибка подключения. Или проксик сдох, или yandex его забанил. В любом случае проксики бесплатные и они не вечны, как и все в этом мире )) — сейчас обновлю снова и парсите, друзья, на здоровье))
Dispetcher 02.04
Обновите прокси, «работающий» сервис крайне полезен!
buzzman 02.04
Dispetcher, спасибо, что напомнили. Сейчас обновлю. Приятного пользования.