@Stasovsky, ну покажи хоть как curl_multi используешь
Форум → Программирование → PHP для идиотов → Расширения PHP → Как быстро и тихо спарсить каталог сайта?
Как быстро и тихо спарсить каталог сайта?
Страницы: ← Предыдущая страница →
-
-
Дек. 1, 2014, 3:02 п.п., спустя 33 минуты 4 секунды
function getData($items) {
$ch = array();
$result = array();
$mh = curl_multi_init();
foreach ($items as $i => $item) {
$ch[$i] = curl_init();
curl_setopt($ch[$i], CURLOPT_URL, $item);
curl_setopt($ch[$i], CURLOPT_HEADER, 0);
curl_setopt($ch[$i], CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch[$i], CURLOPT_FAILONERROR, 1);
curl_setopt($ch[$i], CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']);
if (!empty($options)) {
curl_setopt_array($ch[$i], $options);
}
curl_multi_add_handle($mh, $ch[$i]);
}
$running = null;
do {
curl_multi_exec($mh, $running);
} while ($running > 0);
foreach ($ch as $i => $c) {
$result[$i] = curl_multi_getcontent($c);
curl_multi_remove_handle($mh, $c);
}
curl_multi_close($mh);
return $result;
}Высокоуровневое абстрактное говно -
Дек. 1, 2014, 3:21 п.п., спустя 18 минут 28 секунд
@Stasovsky, ну ок, тут всё норм, а список урлов теперь?)
-
Дек. 1, 2014, 3:24 п.п., спустя 3 минуты 17 секунд
Пока только эти:http://www.entero.ru/search.php?text=30474
http://www.entero.ru/search.php?text=30632
http://www.entero.ru/search.php?text=30633
http://www.entero.ru/search.php?text=30634
http://www.entero.ru/search.php?text=30635
http://www.entero.ru/search.php?text=30636
http://www.entero.ru/search.php?text=30638
http://www.entero.ru/search.php?text=31506
http://www.entero.ru/search.php?text=31507Высокоуровневое абстрактное говно -
Дек. 1, 2014, 3:33 п.п., спустя 9 минут 33 секунды
даже секунду не выполняется
Спустя 154 сек.
точно тупит именно curl, а не парсинг страницы?) -
Дек. 1, 2014, 3:58 п.п., спустя 24 минуты 35 секунд
Думаешь такое может сильно тупить?preg_match('/class=lp>([\d\s.]+)[^<]*/im', $results[$id], $data);
Высокоуровневое абстрактное говно -
Дек. 1, 2014, 4:05 п.п., спустя 6 минут 29 секунд
мда. тогда давай версию php и секцию информации о curl из phpinfo, может кто-нибудь придёт и скажет что-нибудь в тему по этим данным)
-
Дек. 1, 2014, 4:14 п.п., спустя 9 минут 50 секунд
На локалке PHP 5.3.13, cURL 7.24.0: 9 запросов - 12.5814 сек.
На серваке PHP 5.2.17, cURL 7.31.0: 9 запросов - 1.7884 сек.Высокоуровневое абстрактное говно -
-
Дек. 1, 2014, 4:34 п.п., спустя 16 минут 28 секунд
Бля. Это же как /dev/null -_-Высокоуровневое абстрактное говно -
-
Дек. 2, 2014, 11:58 п.п., спустя 1 день 6 часов 24 минуты
@phpdude, что такое баго?Высокоуровневое абстрактное говно -
-
Дек. 3, 2014, 2:14 д.п., спустя 13 минут 52 секунды
@phpdude, что такое баго?
@Stasovsky, Bug блеядь
Сапожник без сапог -
Май 15, 2017, 8:13 п.п., спустя 894 дня 17 часов 59 минут
Он может где угодно лежать, посмотри robots.txt, может повезет.
Но вообще я бы не парсил сихронно, надо асинхронно парсить сайтик. Например через Scrapy (python). Суть в том, чтобы сделать одновркменно сотни запросов на страницы и коллбеками обрабатывать ответы, тогда не особо важно сколько генерирется страница
ege.org.ru ege.net.ru
Страницы: ← Предыдущая страница →
Пожалуйста, авторизуйтесь, чтобы написать комментарий!