Хуево. Парсинг сайта.

Страницы: ← Следующая страница →

ivanscm

Сообщения: 1251 Репутация: N Группа: Джедаи

Июль 12, 2010, 2:08 п.п.

возникла необходимость ограбить сайт http://kinomob.info по контенту. Я думал что сложное для меня скачка и написал довнлоадер. Оказалось что самое сложное для меня парсинг ссылок и названия с описаниями. Вот например категория http://kinomob.info/cheats,1,1.htm. мне нужно выудить весь список урлов в таблице, и потом перейти по ссылке и выудить название, описание и ссылку. пытался работать со страничкой как с xml, но код пиздец не валидный. Использовал Tidy, вроде ничего, но ресурсы кушает по страшному. Я решил использовать регулярки, но в них я деревянный, простое могу, а вот страничку не придумаю как. Ткните кто знает пожалуйста.

С возвращением, Пiха! hyperoff.ru - качественный хостинг php
Абырвалг

Сообщения: 6480 Репутация: N Группа: Джедаи

Июль 12, 2010, 3:34 п.п., спустя 1 час 25 минут 49 секунд

phpQuery тоже загинается на невалидном документе?
ivanscm

Сообщения: 1251 Репутация: N Группа: Джедаи

Июль 12, 2010, 3:56 п.п., спустя 22 минуты 16 секунд

Абырвалг, че то первый раз слышу про такое, уже читаю.

С возвращением, Пiха! hyperoff.ru - качественный хостинг php
Абырвалг

Сообщения: 6480 Репутация: N Группа: Джедаи

Июль 12, 2010, 4:03 п.п., спустя 6 минут 32 секунды

довай. Не забудь о резалтах написать, так как мне самому интересно
Faster

Сообщения: 1159 Репутация: N Группа: Кто попало

Июль 12, 2010, 5:23 п.п., спустя 1 час 20 минут 55 секунд

phpQuery использует XML разборщик и довольно требователен к памяти на больших документах (от 6 метров)
правда работать с селекторами очень удобно после jQuery
по теме - регулярки в путь.
adw0rd

Сообщения: 22959 Репутация: N Группа: в ухо

Июль 12, 2010, 6:20 п.п., спустя 56 минут 52 секунды

Хочешь удобства присущее jQuery - phpQuery. Хочешь простоты, гибкости, головной боли после небольшой смены (типа кавычек) верстки - юзай регулярки.
Но второе еще хорошо тем, что наконец выучишь регулярки хорошо

https://smappi.org/ - платформа по созданию API на все случаи жизни
ivanscm

Сообщения: 1251 Репутация: N Группа: Джедаи

Июль 12, 2010, 6:25 п.п., спустя 5 минут 3 секунды

Наверно для быстроты разработки буду использовать phpQuery. будет время буду с регулярками мучаться. говорят легко, а я на них как баран на новые ворота

С возвращением, Пiха! hyperoff.ru - качественный хостинг php
phpdude

Сообщения: 26646 Репутация: N Группа: в ухо

Июль 12, 2010, 11:40 п.п., спустя 5 часов 14 минут 32 секунды

adw0rd, если тидить документ, то головной боли этой уже не стает :)

другое дело, есть ли у заказчиков тиди, но это уже дело третье)

Сапожник без сапог

888eug

Сообщения: 13 Репутация: N Группа: Кто попало

Июль 13, 2010, 11:22 д.п., спустя 11 часов 42 минуты 16 секунд

Можно сделать так:

<?php
error_reporting(0);
	
	$dom = new DOMDocument();
	
	 $file = 'http://kinomob.info/cheats,1,1.htm';  
	 $dom->loadHTMLFile($file);
	 $table = $dom -> getElementsByTagName('table');
	 tr = $table -> item(9) -> getElementsByTagName('tr');
         $td = $tr -> item(3) -> getElementsByTagName('td');
	 $a = $td -> item(0) -> getElementsByTagName('a');
	 $hre= $a ->item(0) -> getAttribute("href") ;	 

	 $links[$link]='http://kinomob.info/'.$hre;
	 echo '<br/>',$links[$link];
?>

Для получения всех ссылок просто поставить цикл со смещением $td = $tr -> item(3) на 1, т.е. 4,5, и т.д.

Спустя 121 сек.

<?php
error_reporting(0);
   
    $dom = new DOMDocument();
   
     $file = 'http://kinomob.info/cheats,1,1.htm'; 
     $dom->loadHTMLFile($file);
     $table = $dom -> getElementsByTagName('table');
     $tr = $table -> item(9) -> getElementsByTagName('tr');
     $td = $tr -> item(3) -> getElementsByTagName('td');
     $a = $td -> item(0) -> getElementsByTagName('a');
     $hre= $a ->item(0) -> getAttribute("href") ;   
 
     $links[$link]='http://kinomob.info/'.$hre;
     echo '<br/>',$links[$link];
?>

Здесь правильно.

Nyaah

Сообщения: 574 Репутация: N Группа: Джедаи

Июль 13, 2010, 5:53 п.п., спустя 6 часов 31 минуту 3 секунды

ога, верстку изменили и песта, лишний элемент вывелся и песта, если уж юзаешь dom пхпшный, для поиска элементов пользуй xpath, куда более гибкие решения позволяет делать

Work, buy, consume, die
ivanscm

Сообщения: 1251 Репутация: N Группа: Джедаи

Июль 13, 2010, 6:22 п.п., спустя 28 минут 52 секунды

да dom говорят жрет много, в книге видел даже. сам не знаю.но этот вариант пробовал.

С возвращением, Пiха! hyperoff.ru - качественный хостинг php

technobulka

Сообщения: 4540 Репутация: N Группа: Джедаи

Июль 16, 2010, 5:24 д.п., спустя 2 дня 11 часов 2 минуты

я тут curl'ом попробовал…

<?php

function getPage ($url, $regx) {
	$uagent = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)";
	$ch = curl_init($url);
	curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
	curl_setopt($ch, CURLOPT_HEADER, 0);
	curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
	curl_setopt($ch, CURLOPT_ENCODING, "");
	curl_setopt($ch, CURLOPT_USERAGENT, $uagent);
	curl_setopt($ch, CURLOPT_TIMEOUT, 10);
	
	$r = curl_exec($ch);
	preg_match_all($regx, $r, $a);
	curl_close($ch);

	return $a;
}

$url = 'http://kinomob.info/';
$link = $url.'cheats,1,1.htm';
$find = '|(cheat,1,1,)(\d+)(.htm)|sei';
$ftitle = '|<h1>(.+?)</h1>.+(uploads/[^"]+).+|sei';

$mas = getPage($link, $find);

for ($i=0;$i<count($mas[0]);$i++) {
	echo $url.$mas[0][$i].'<br />';
	$newlink = $url.$mas[0][$i];
	$info = getPage($newlink,$ftitle);
	echo $info[1][0].'<br />';
	echo $url.$info[2][0].'<br /><hr />';
	
}

?>[/php]

только я не силен в регулярках, вытащил заголовок и картинку… нуна еще описание и форму с кнопкой "скачать"…

вот что мне выводит:

[img]http://j.imagehost.org/0743/000.jpg[/img]

Высокоуровневое абстрактное говно

Troy

Сообщения: 2532 Репутация: N Группа: Джедаи
Июль 16, 2010, 8:34 д.п., спустя 3 часа 9 минут 34 секунды
Stasovsky, for на foreach поменяй , смысл этого
$url = 'http://kinomob.info/'; $link = $url.'cheats,1,1.htm';
я вобще не понимаю, почему не в одну строку ?
technobulka

Сообщения: 4540 Репутация: N Группа: Джедаи

Июль 16, 2010, 1:10 п.п., спустя 4 часа 35 минут 55 секунд

потому что $url дальше использовалась))

Высокоуровневое абстрактное говно
ivanscm

Сообщения: 1251 Репутация: N Группа: Джедаи

Авг. 20, 2010, 2:57 п.п., спустя 35 дней 1 час 47 минут

Stasovsky, выручай. нужно зайти на страницу и выудить описание с ссылкой на закачку.

С возвращением, Пiха! hyperoff.ru - качественный хостинг php

Страницы: ← Следующая страница →

Пожалуйста, авторизуйтесь, чтобы написать комментарий!

Хуево. Парсинг сайта.

Войти