ФорумПрограммированиеPHP для идиотов → Парсинг любого сайта на предмет локальных ссылок.

Парсинг любого сайта на предмет локальных ссылок.

  • morgan_chester

    Сообщения: 3 Репутация: N Группа: Кто попало

    Spritz 25 мая 2010 г. 13:02

    Привет всем!

    Не могу найти универсальную регулярку для выделения всех внутренних (внутрисайтовых) URLов на любой странице. (тапками не кидаться, не зла ради).
    Почитал форум, не нашел по этой теме ничего интересного.

    Надо, чтобы URL'ы выходили все:и полностью, например, http://smth.com/example/…. и как "/example/….". И чтобы кроме самого сайта, чью страницу мы читаем, не было ни одной сторонней ссылки.

    Вот такая интересная задача с regexp…
  • phpdude

    Сообщения: 26646 Репутация: N Группа: в ухо

    Spritz 25 мая 2010 г. 13:03, спустя 51 секунду

    morgan_chester, начинающий сеошник тчоли? или уже кончающий? закажи программисту если сам не можешь
    Сапожник без сапог
  • morgan_chester

    Сообщения: 3 Репутация: N Группа: Кто попало

    Spritz 25 мая 2010 г. 13:05, спустя 2 минуты 10 секунд

    2 phpdude
    В том-то и дело, что не сеошник.
  • adw0rd

    Сообщения: 22959 Репутация: N Группа: в ухо

    Spritz 25 мая 2010 г. 13:23, спустя 18 минут 19 секунд

    Вот такая интересная задача с regexp…
    ага, очень ))) еще скажите уникальная задача )))

    Вот тебе для затравки, попробуй довести до ума:
    /href\=(?:\"|\')(.+?)(?:\"|\')/i

    Если под вечер не получится ее допилить, то допилю за тебя, но лучше сам реши задачу
    https://smappi.org/ - платформа по созданию API на все случаи жизни
  • adw0rd

    Сообщения: 22959 Репутация: N Группа: в ухо

    Spritz 25 мая 2010 г. 13:30, спустя 7 минут 22 секунды

    http://pyha.ru/fishki/regexp/ тут можешь тестить регулярки
    https://smappi.org/ - платформа по созданию API на все случаи жизни
  • morgan_chester

    Сообщения: 3 Репутация: N Группа: Кто попало

    Spritz 26 мая 2010 г. 0:11, спустя 10 часов 40 минут 19 секунд

    Короче, пока сижу безрезультатно. Завтра с утра на свежую голову помозгую.
  • adw0rd

    Сообщения: 22959 Репутация: N Группа: в ухо

    Spritz 26 мая 2010 г. 0:26, спустя 15 минут 37 секунд

    Ну я обещал к вечеру, а то потом забуду

    /href\=(?:\"|\')(?!\w+\:\/\/)(.+?)(?:\"|\')/i
    https://smappi.org/ - платформа по созданию API на все случаи жизни
  • AndryG

    Сообщения: 237 Репутация: N Группа: Адекваты

    Spritz 26 мая 2010 г. 18:46, спустя 18 часов 19 минут 50 секунд

    Запузырить код в DOM. И, обходя дерево, выискивать там всё, что нужно/хочется.
  • adw0rd

    Сообщения: 22959 Репутация: N Группа: в ухо

    Spritz 26 мая 2010 г. 18:54, спустя 7 минут 55 секунд

    AndryG, если задача только получить список урлов на странице, то DOM это ошибочный выбор
    https://smappi.org/ - платформа по созданию API на все случаи жизни
  • kostyl

    Сообщения: 5210 Репутация: N Группа: Джедаи

    Spritz 27 мая 2010 г. 11:20, спустя 16 часов 26 минут 20 секунд

    а никто не знает, какие готовые решения есть для серверного прокси на пыхе. Что бы можно было ютьюб смотреть и всё такое. Адмнины банять все подряд.
  • phpdude

    Сообщения: 26646 Репутация: N Группа: в ухо

    Spritz 27 мая 2010 г. 11:23, спустя 2 минуты 11 секунд

    http://sourceforge.net/projects/phpproxy/
    Сапожник без сапог

Пожалуйста, авторизуйтесь, чтобы написать комментарий!