ФорумПрограммированиеPHP для идиотов → Технологии написания сайта/сервиса для парсинга сайтов

Технологии написания сайта/сервиса для парсинга сайтов

  • merovinh

    Сообщения: 1 Репутация: N Группа: Кто попало

    Spritz Авг. 27, 2014, 6:55 п.п.

    Сразу вопрос: с помощью каких технологий можно реализовать пункты описанные ниже? Я начитался в интернетах о pthreads, ajax, comet, web sockets, но в голове полная каша. Может кто знает как реализуются такие или подобные сайты/сервисы. Интересует именно реализация на php.

    Есть веб-сайт в виде парсера на php. На странице есть список сайтов которые можно парсить. Сайты скачиваются скриптом с помощью multi_curl. Нужно чтобы можно было выполнять следующие действия:

    • Запускаем парсить первый сайт (например он парситься примерно 10мин) в несколько потоков (думаю с потоками multi_curl сам разберется)
    • В процессе парсинга в режиме реального времени на страницу приходят уведомления про ссылки которые уже скачались, сколько еще осталось, другая инфа… То есть наверно нужно держать постоянное соединение.
    • Пока идет процесс парсинга, мы можем делать на сайте другие действия (открывать настройки, создавать другие парсеры…)
    • Можем запустить парсить еще один сайт, при этом это никак не должно влиять на парсинг первого сайта. Можем запустить парсить третий сайт, четвертый …
    • Если закроем а позже откроем вкладку то запущенные процессы не должны никуда пропасть и все сообщения должны пидгрузитись снова (думаю кроме уведомлений в реальном времени их нужно записывать и в бд чтобы ничего не пропало)
  • AlexB

    Сообщения: 4306 Репутация: N Группа: в ухо

    Spritz Авг. 27, 2014, 7:41 п.п., спустя 46 минут 26 секунд

    У нас хуйня какая-то с переносом топиков. Хотел перенести в "PHP для идиотов" - вывалилась 500. Теперь на главной светится старый раздел, а внутри топика - новый.
  • phpdude

    Сообщения: 26646 Репутация: N Группа: в ухо

    Spritz Авг. 27, 2014, 10:05 п.п., спустя 2 часа 23 минуты 18 секунд

    ajax интерфейсы вам в помощь. вебсокеты уже лишнее конечно. тут у вас интерфейс к парсеру никак не относится ну разве что тем что он просто есть в том же проекте.

    Спустя 13 сек.

    ты сломал пыху! тож 500ку словил

    Сапожник без сапог
  • adw0rd

    Сообщения: 22959 Репутация: N Группа: в ухо

    Spritz Авг. 27, 2014, 10:22 п.п., спустя 16 минут 59 секунд

    У нас хуйня какая-то с переносом топиков.

    У нас кончились активисты) AlexB вся надежда на тебя

    https://smappi.org/ - платформа по созданию API на все случаи жизни
  • Sinkler

    Сообщения: 7958 Репутация: N Группа: в ухо

    Spritz Авг. 28, 2014, 1:29 д.п., спустя 3 часа 7 минут 28 секунд

    да как-то пока не до починки

  • master

    Сообщения: 3244 Репутация: N Группа: Джедаи

    Spritz Авг. 28, 2014, 4:36 д.п., спустя 3 часа 7 минут 7 секунд

    Кто все эти люди без аватарок и с 1 сообщением?
    не всё полезно, что в swap полезло
  • adw0rd

    Сообщения: 22959 Репутация: N Группа: в ухо

    Spritz Авг. 28, 2014, 11:04 д.п., спустя 6 часов 27 минут 36 секунд

    Видимо новички? Мы всегда рады новичкам)

    Спустя 22 сек.

    ps. @AlexB, я починил 500-ую, надоело

    https://smappi.org/ - платформа по созданию API на все случаи жизни
  • phpdude

    Сообщения: 26646 Репутация: N Группа: в ухо

    Spritz Авг. 28, 2014, 2:09 п.п., спустя 3 часа 5 минут 33 секунды

    @adw0rd, а что было ?

    Сапожник без сапог
  • adw0rd

    Сообщения: 22959 Репутация: N Группа: в ухо

    Spritz Авг. 28, 2014, 3:43 п.п., спустя 1 час 33 минуты 14 секунд

    @phpdude, да latest_topic у борда не менялся, так как UNIQUE индекс на board.latest_topic_id.

    Т.е. он пытается вставить другому борду ID топика, а такой уже есть у старого борда. Ну вообщем как я и сказал в другой теме - подебажу.

    https://smappi.org/ - платформа по созданию API на все случаи жизни
  • phpdude

    Сообщения: 26646 Репутация: N Группа: в ухо

    Spritz Авг. 28, 2014, 4:05 п.п., спустя 22 минуты 50 секунд

    @adw0rd, так и думал) оки. а нахрена уник там? сними уник да и все

    Спустя 32 сек.

    он конечно чисто физически "уникальный", но фактически ситуации не возникнет такой когда два будут а даже если и возникнет - не смертельно)

    Сапожник без сапог
  • adw0rd

    Сообщения: 22959 Репутация: N Группа: в ухо

    Spritz Авг. 28, 2014, 4:15 п.п., спустя 9 минут 56 секунд

    Согласен, просто хочется идеально) Вообщем если меня запарит за 2 минуты эта ситуация, то сделаю не уникальный

    https://smappi.org/ - платформа по созданию API на все случаи жизни
  • phpdude

    Сообщения: 26646 Репутация: N Группа: в ухо

    Spritz Авг. 28, 2014, 4:22 п.п., спустя 6 минут 34 секунды

    @adw0rd, мир в принципе неидеален. смирись и прости.

    Сапожник без сапог
  • adw0rd

    Сообщения: 22959 Репутация: N Группа: в ухо

    Spritz Авг. 30, 2014, 2:30 п.п., спустя 1 день 22 часа 8 минут

    Пофиксил

    https://smappi.org/ - платформа по созданию API на все случаи жизни
  • phpdude

    Сообщения: 26646 Репутация: N Группа: в ухо

    Spritz Авг. 30, 2014, 2:46 п.п., спустя 15 минут 38 секунд

    Пофиксил

    @adw0rd, как в итоге пофиксил?

    Сапожник без сапог
  • adw0rd

    Сообщения: 22959 Репутация: N Группа: в ухо

    Spritz Авг. 30, 2014, 3:09 п.п., спустя 22 минуты 56 секунд

    Там логика была верной при перемещении, только мелкий баг нашелся, который вместо "предыдущего" борда ссылался на новый

    https://smappi.org/ - платформа по созданию API на все случаи жизни

Пожалуйста, авторизуйтесь, чтобы написать комментарий!