ФорумПрограммированиеJavaScriptNodeJS → Чем краулить сайты на ноде?

Чем краулить сайты на ноде?

  • adw0rd

    Сообщения: 22902 Репутация: N Группа: в ухо

    Spritz 15 октября 2015 г. 1:30

    Пока интересуюсь чисто ради интереса
    @phpdude @mathete @ArtemVortax выкладывайте сюда свой опыт

    Спустя 72 сек.

    Много наслышан о Zombie by assaf [zombie.js.org], что ещё есть интересного?
    Безголовоые Хром, фантом тоже понятно

    adw/0
  • phpdude

    Сообщения: 26613 Репутация: N Группа: в ухо

    Spritz 15 октября 2015 г. 1:35, спустя 5 минут 20 секунд

    Я не в курсе, у меня не было задач по краулингу на ноде, я просто из урл хтмл делаю)) коаулю питоном

    Сапожник без сапог
  • adw0rd

    Сообщения: 22902 Репутация: N Группа: в ухо

    Spritz 15 октября 2015 г. 1:42, спустя 6 минут 26 секунд

    @mathete рекомендует

    а без js просто http и cherio

    adw/0
  • ArtemVortax

    Сообщения: 48 Репутация: N Группа: Джедаи

    Spritz 15 октября 2015 г. 1:57, спустя 15 минут 17 секунд

    Последний раз мне надо было просто распарсить в параллели урлы заданные по шаблонам, для этого хватило request + async для управления потоками.

    А если нужна более полная функциональность, то стоит посмотреть на Python Scrappy. Там действительно пауки.

  • adw0rd

    Сообщения: 22902 Репутация: N Группа: в ухо

    Spritz 15 октября 2015 г. 2:05, спустя 7 минут 33 секунды

    @ArtemVortax, я скрапи юзаю на многих проектах почти 5 лет. В рамках питона он хорош, но хочется большей производительности за счёт ноды

    adw/0
  • adw0rd

    Сообщения: 22902 Репутация: N Группа: в ухо

    Spritz 15 октября 2015 г. 2:31, спустя 25 минут 59 секунд

    @mathete не помнишь что за ОСь, которая чисто под ноду заточена, но не NodeOS? Толи CoreOS толи ещё как называлась

    adw/0
  • mathete

    Сообщения: 435 Репутация: N Группа: Джедаи

    Spritz 15 октября 2015 г. 3:01, спустя 29 минут 57 секунд

    @adw0rd, типа вот: https://gist.github.com/C0deMaver1ck/8509117

    А вообще, надо иметь в виду, что штатный http-модуль немного "странный". nodejs/node [github.com]

    Т.е., если я захочу отсеивать nodejs ботов, то мне достаточно посмотреть сырые заголовки. Ты будешь усиленно сувать 'User-Agent: ...', а на сервер придёт 'user-agent:...'. Я буду ржать, а ты ничего не сможешь сделать))

    Но, как правило, всем похуй...

    Спустя 107 сек.

    @mathete не помнишь что за ОСь, которая чисто под ноду заточена, но не NodeOS? Толи CoreOS толи ещё как называлась

    @adw0rd, ну вроде это же joent пилят. Вот вроде SmartOS [smartos.org]

  • adw0rd

    Сообщения: 22902 Репутация: N Группа: в ухо

    Spritz 15 октября 2015 г. 3:58, спустя 56 минут 52 секунды

    @mathete, спасибо, то что надо!

    adw/0

Пожалуйста, авторизуйтесь, чтобы написать комментарий!