Этот сайт не наркоманов. Это сайт программистов.

Добро пожаловать на Пыху!

Логин:
Пароль:
 

Нет прописки? Зарегистрируйся!

Новости

Пыха переехала на новый сервер, ура!

Краснодарское время: 23 Май, 2012, 12:04:28

Страниц: [1]
Печать
Автор Тема: Парсинг wikipedia со всем вытекающим  (Прочитано 930 раз)
0 Пользователей и 2 Гостей смотрят эту тему.
Pasha    ↓ 
18 Ноябрь, 2008, 06:07:34
НЕ ХУЕТА! ХУЕТА!

Группа: Адекваты

Карма: 7
Сообщений: 1028
Сила слова: 0.68

Собсн заказчик хочет...

http://ru.wikipedia.org/wiki/%D0%9A%D0%B0%D1%82%D0%B5%D0%B3%D0%BE%D1%80%D0%B8%D1%8F:%D0%A2%D1%83%D1%80%D0%B8%D0%B7%D0%BC
надо спарсить все подкатегории и конечные страницы. Идти вглубь до тех пор, пока не наткнемся на отсутствие подкатегорий или дочерних страниц или пока не появится страница с географиескими координатами типа вот такой:
http://ru.wikipedia.org/wiki/%D0%97%D0%B0%D0%BC%D0%BE%D0%BA_%D0%98%D0%BD%D1%83%D1%8F%D0%BC%D0%B0

я вот думаю без CRON'a никак не обойтись... в базе хранить ссылки... потом по крону их считывать + еще считывать ссылки если есть... так же хранить категории в поле
 
м?
Записан

r.i.p. puppy
adw0rd    ↓ 
18 Ноябрь, 2008, 06:10:12 , спустя 2 минуты 38 секунд
НЕ ХУЕТА! ХУЕТА!

эдво
Группа: в ухо

Карма: не нужна
Сообщений: 17615
Сила слова: 1.67

Pasha, CRON - диспетчер заданий. Тебе это действие надо проводить регулярно?
Записан

Python, Django, Git, Emacs, Nginx, MySQL, SphinxSearch, FreeBSD/Linux
Мой блог * Кинсбург * Либург * Я на GitHub
Pasha    ↓ 
18 Ноябрь, 2008, 07:35:38 , спустя 1 час 25 минут 26 секунд
НЕ ХУЕТА! ХУЕТА!

Группа: Адекваты

Карма: 7
Сообщений: 1028
Сила слова: 0.68

надо спарсить все подкатегории и конечные страницы. Идти вглубь до тех пор, пока не наткнемся на отсутствие подкатегорий или дочерних страниц или пока не появится страница с географиескими координатами типа вот такой:

:) я думаю одним запуском сценария все рухнет, поэтому думаю по кускам с кроном делать
Записан

r.i.p. puppy
adw0rd    ↓ 
18 Ноябрь, 2008, 07:39:53 , спустя 4 минуты 15 секунд
НЕ ХУЕТА! ХУЕТА!

эдво
Группа: в ухо

Карма: не нужна
Сообщений: 17615
Сила слова: 1.67

Pasha, ну тогда используй крон, ты начни, если возникнут проблемы, то посовещаемся :)
Записан

Python, Django, Git, Emacs, Nginx, MySQL, SphinxSearch, FreeBSD/Linux
Мой блог * Кинсбург * Либург * Я на GitHub
Pasha    ↓ 
18 Ноябрь, 2008, 08:00:13 , спустя 20 минут 20 секунд
НЕ ХУЕТА! ХУЕТА!

Группа: Адекваты

Карма: 7
Сообщений: 1028
Сила слова: 0.68

ладушки
Записан

r.i.p. puppy
sap    ↓ 
18 Ноябрь, 2008, 08:14:20 , спустя 14 минут 7 секунд
НЕ ХУЕТА! ХУЕТА!

Группа: Жмурики

Карма: 40
Сообщений: 2697
Сила слова: 1.48

:) я думаю одним запуском сценария все рухнет, поэтому думаю по кускам с кроном делать
Я думаю, не рухнет, если нормально настроить. Или заюзай многопоточность))))
Записан

Pasha    ↓ 
18 Ноябрь, 2008, 08:18:05 , спустя 3 минуты 45 секунд
НЕ ХУЕТА! ХУЕТА!

Группа: Адекваты

Карма: 7
Сообщений: 1028
Сила слова: 0.68

почитал о многопоточности, думаю с ней попробую
Записан

r.i.p. puppy
sap    ↓ 
18 Ноябрь, 2008, 08:55:33 , спустя 37 минут 28 секунд
НЕ ХУЕТА! ХУЕТА!

Группа: Жмурики

Карма: 40
Сообщений: 2697
Сила слова: 1.48

Юзай мой класс =) http://s-a-p.in/interactive/theme/emulation-multithreading (скачать http://s-a-p.in/download/multithreading )
Только учти, что все равно упасть может.
Записан

adw0rd    ↓ 
18 Ноябрь, 2008, 09:04:44 , спустя 9 минут 11 секунд
НЕ ХУЕТА! ХУЕТА!

эдво
Группа: в ухо

Карма: не нужна
Сообщений: 17615
Сила слова: 1.67

sap,
 
PHP

// Можно поставить задержку, чтобы не повесить сервер
sleep(1);

Я думаю в таком случае это надо делать через свойство класса
Записан

Python, Django, Git, Emacs, Nginx, MySQL, SphinxSearch, FreeBSD/Linux
Мой блог * Кинсбург * Либург * Я на GitHub
Pasha    ↓ 
18 Ноябрь, 2008, 09:12:52 , спустя 8 минут 8 секунд
НЕ ХУЕТА! ХУЕТА!

Группа: Адекваты

Карма: 7
Сообщений: 1028
Сила слова: 0.68

спасибо, sap :)
Записан

r.i.p. puppy
CTAPbIu_MABP    ↓ 
18 Ноябрь, 2008, 09:25:02 , спустя 12 минут 10 секунд
НЕ ХУЕТА! ХУЕТА!

мавр
Группа: в ухо

Карма: не нужна
Сообщений: 5187
Сила слова: 1.81

у сапа очень жизнеутверждающая аватара
Записан

java.lang.OutOfMemoryError
sap    ↓ 
18 Ноябрь, 2008, 09:43:15 , спустя 18 минут 13 секунд
НЕ ХУЕТА! ХУЕТА!

Группа: Жмурики

Карма: 40
Сообщений: 2697
Сила слова: 1.48

adw0rd, да, ты прав.
 
Pasha, пожалуйста :)
 
CTAPbIu_MABP, это зависит от того, как на нее смотреть ;)
Записан

KENDO    ↓ 
19 Ноябрь, 2008, 04:40:42 , спустя 6 часов 57 минут 27 секунд
НЕ ХУЕТА! ХУЕТА!

Группа: Адекваты

Карма: 10
Сообщений: 444
Сила слова: 2.25

Кстати, там ведь бешеная рекурсия получится, если парсить все страницы подряд... Так что придётся ссылки сначала парсить, потом уже выкачивать.
Записан
Pasha    ↓ 
19 Ноябрь, 2008, 05:57:12 , спустя 13 часов 16 минут 30 секунд
НЕ ХУЕТА! ХУЕТА!

Группа: Адекваты

Карма: 7
Сообщений: 1028
Сила слова: 0.68

Кстати, там ведь бешеная рекурсия получится, если парсить все страницы подряд... Так что придётся ссылки сначала парсить, потом уже выкачивать.
да
Записан

r.i.p. puppy
Страниц: [1]
Печать
 

Перейти в: