ФорумПрограммированиеPHP для идиотов → Curl - рекурсия + логи

Curl - рекурсия + логи

  • autoxenon

    Сообщения: ? Репутация: N Группа: Кто попало

    Spritz 25 декабря 2012 г. 6:00

    Задача: скачать страничку (используя Curl), имитируя на 100% браузер (с отключенным javascript).

    1.Curl - не браузер и обрабатывать JS не может или все таки как то может?
    2.Браузер рекурсивно (и автоматом) скачивает файлы с URL расположенных в HTML коде.
    3.Curl - не браузер и сам рекурсивно скачивать файлы не может.

    Сейчас делаю так:
    1.Curl скачивает страницу.
    2.Preg_match_all - вытаскивает из HTML странички URL на графические файлы.
    3.Можно было бы скачивать и CSS и JS файлы, но "оформлять" нам ничего не надо + JS мы потом все равно не исполним.
    4.Foreach -запускает поочередно Curl (URL берется из Preg_match_all).
    5.Куки даются нам "апачем" + "JS" (но мы прикидываемся что он отключен) + через графические файлы.
    6.Записываем куки в cookie.txt (но тут маленькая засада! Если браузер видит просроченную куку - то выкидывает ее! А курлу пофигу.
    7.Для того, что бы "умершие куки" удалить (не передавать на след.страницы), после всех курлов, открываем cookie.txt и вырезаем оттуда ненужные куки.

    Все как бы работает, но ощущение "детсадовского алгоритма" остается.
    Вопросы:
    Может курл и сам все рекурсивно скачивать может (что ему прикажешь) без моих вывертов и как то более красиво и более правильно?
    Как записывать логи курла, что он отправил, что получил? Что бы анализировать не в фаерфоксе?
  • AlexanderC

    Сообщения: ? Репутация: N Группа: Кто попало

    Spritz 25 декабря 2012 г. 6:40, спустя 39 минут 48 секунд

    есть готовые тулзы под линукс… враппер легко строится на обычных системных вызовах
  • Nyaah

    Сообщения: 574 Репутация: N Группа: Джедаи

    Spritz 25 декабря 2012 г. 6:40, спустя 11 секунд

    wget -p -U "User-agent" …
    Work, buy, consume, die
  • autoxenon

    Сообщения: ? Репутация: N Группа: Кто попало

    Spritz 25 декабря 2012 г. 6:47, спустя 6 минут 45 секунд

    По поводу готовых "тулз" - не могли бы маякнуть URL_ом?
    В принципе есть и линукс.
  • phpdude

    Сообщения: 26618 Репутация: N Группа: в ухо

    Spritz 25 декабря 2012 г. 9:16, спустя 2 часа 28 минут 59 секунд

    wget -r
    Сапожник без сапог
  • thorzan

    Сообщения: 4 Репутация: N Группа: Кто попало Заблокированный

    Spritz 3 января 2013 г. 5:09, спустя 8 дней 19 часов 53 минуты


    По поводу готовых "тулз" - не могли бы маякнуть URL_ом?
    В принципе есть и линукс.

    В гугле с поиском php curl можно найти все решения.

Пожалуйста, авторизуйтесь, чтобы написать комментарий!