Надо спарсить пару категорий одного сайта, но не для того, что бы спионерить инфу, а для того, что бы мониторить цены конкурентов. Пробовал обычным cURL'ом, но либо у меня руки кривые, либо он действительно медленно работает (пока только на локалке пробовал 16 секунд 3 страницы). Нашел этот магазин в яндекс маркете, значит у него есть волшебный yml/cvs/xls файлик со всем каталогом, но по какому адресу лежит, хер его знает. Подкиньте советов, как выпрямить руки, или как найти волшебный файлик.
Он может где угодно лежать, посмотри robots.txt, может повезет.
Но вообще я бы не парсил сихронно, надо асинхронно парсить сайтик. Например через Scrapy (python). Суть в том, чтобы сделать одновркменно сотни запросов на страницы и коллбеками обрабатывать ответы, тогда не особо важно сколько генерирется страница
https://smappi.org/ - платформа по созданию API на все случаи жизни
Попробовал curl_multi, быстрее стало только на одну секунду. Может это только на локалке так медленно?
Я не знаю что такое curl_multi, но при асинхронном подходе ты должен ждать первые результаты "первые 16 секунд", а потом получать все остальные 100500 страниц непрерывно, без всяких задержек.
https://smappi.org/ - платформа по созданию API на все случаи жизни
Попробовал curl_multi, быстрее стало только на одну секунду. Может это только на локалке так медленно?
Я не знаю что такое curl_multi, но при асинхронном подходе ты должен ждать первые результаты "первые 16 секунд", а потом получать все остальные 100500 страниц непрерывно, без всяких задержек.
@Sinkler, да, я даже нагуглил, но всеравно не пытался даже понять как с ним работать) Я бы точно взял Scrapy он на Twisted. Я с ним уже работал, он хорошо справляется
Спустя 52 сек.
Думаю для человека знакомого с js проще написать все на node.js, архитектура как раз позволяет делать запросы и не ждать ответа, а обрабатывать все в коллбеках
https://smappi.org/ - платформа по созданию API на все случаи жизни
@Stasovsky, запусти на линуксе, посмотри время. pcntl на винде точно не работает, про реализацию многопоточности в libcurl под виндой не знаю, но по твоим результатам они идут последовательно