ФорумПрограммированиеPHP для идиотов → Парсинг любого сайта на предмет локальных ссылок.

Парсинг любого сайта на предмет локальных ссылок.

  • morgan_chester

    Сообщения: 3 Репутация: N Группа: Кто попало

    Spritz 25 мая 2010 г. 2:02

    Привет всем!

    Не могу найти универсальную регулярку для выделения всех внутренних (внутрисайтовых) URLов на любой странице. (тапками не кидаться, не зла ради).
    Почитал форум, не нашел по этой теме ничего интересного.

    Надо, чтобы URL'ы выходили все:и полностью, например, http://smth.com/example/…. и как "/example/….". И чтобы кроме самого сайта, чью страницу мы читаем, не было ни одной сторонней ссылки.

    Вот такая интересная задача с regexp…
  • phpdude

    Сообщения: 26624 Репутация: N Группа: в ухо

    Spritz 25 мая 2010 г. 2:03, спустя 51 секунду

    morgan_chester, начинающий сеошник тчоли? или уже кончающий? закажи программисту если сам не можешь
    Сапожник без сапог
  • morgan_chester

    Сообщения: 3 Репутация: N Группа: Кто попало

    Spritz 25 мая 2010 г. 2:05, спустя 2 минуты 10 секунд

    2 phpdude
    В том-то и дело, что не сеошник.
  • adw0rd

    Сообщения: 22905 Репутация: N Группа: в ухо

    Spritz 25 мая 2010 г. 2:23, спустя 18 минут 19 секунд

    Вот такая интересная задача с regexp…
    ага, очень ))) еще скажите уникальная задача )))

    Вот тебе для затравки, попробуй довести до ума:
    /href\=(?:\"|\')(.+?)(?:\"|\')/i

    Если под вечер не получится ее допилить, то допилю за тебя, но лучше сам реши задачу
    adw/0
  • adw0rd

    Сообщения: 22905 Репутация: N Группа: в ухо

    Spritz 25 мая 2010 г. 2:30, спустя 7 минут 22 секунды

    http://pyha.ru/fishki/regexp/ тут можешь тестить регулярки
    adw/0
  • morgan_chester

    Сообщения: 3 Репутация: N Группа: Кто попало

    Spritz 25 мая 2010 г. 13:11, спустя 10 часов 40 минут 19 секунд

    Короче, пока сижу безрезультатно. Завтра с утра на свежую голову помозгую.
  • adw0rd

    Сообщения: 22905 Репутация: N Группа: в ухо

    Spritz 25 мая 2010 г. 13:26, спустя 15 минут 37 секунд

    Ну я обещал к вечеру, а то потом забуду

    /href\=(?:\"|\')(?!\w+\:\/\/)(.+?)(?:\"|\')/i
    adw/0
  • AndryG

    Сообщения: 237 Репутация: N Группа: Адекваты

    Spritz 26 мая 2010 г. 7:46, спустя 18 часов 19 минут 50 секунд

    Запузырить код в DOM. И, обходя дерево, выискивать там всё, что нужно/хочется.
  • adw0rd

    Сообщения: 22905 Репутация: N Группа: в ухо

    Spritz 26 мая 2010 г. 7:54, спустя 7 минут 55 секунд

    AndryG, если задача только получить список урлов на странице, то DOM это ошибочный выбор
    adw/0
  • kostyl

    Сообщения: 5203 Репутация: N Группа: Джедаи

    Spritz 27 мая 2010 г. 0:20, спустя 16 часов 26 минут 20 секунд

    а никто не знает, какие готовые решения есть для серверного прокси на пыхе. Что бы можно было ютьюб смотреть и всё такое. Адмнины банять все подряд.
  • phpdude

    Сообщения: 26624 Репутация: N Группа: в ухо

    Spritz 27 мая 2010 г. 0:23, спустя 2 минуты 11 секунд

    http://sourceforge.net/projects/phpproxy/
    Сапожник без сапог

Пожалуйста, авторизуйтесь, чтобы написать комментарий!