Этот сайт не наркоманов. Это сайт программистов.

Добро пожаловать на Пыху!

Логин:
Пароль:
 

Нет прописки? Зарегистрируйся!

Новости

Мы в твиттере!
Мы вконтакте!
Мы на яндексе!

Краснодарское время: 25 Май, 2012, 06:31:22

Страниц: 1 [2]
Печать
Автор Тема: Нужен парсер простого HTML  (Прочитано 426 раз)
0 Пользователей и 1 Гость смотрят эту тему.
kostyl    ↓ 
21 Декабрь, 2010, 10:46:37
НЕ ХУЕТА! ХУЕТА!

занедельный антипаттерн
Группа: Джедаи

Карма: 60
Сообщений: 3522
Сила слова: 1.7

только есть еще прикол - нужно учитвыать много херни браузеров, которые дописывают незакрытые теги...
Записан

качество жизни обратно пропорционально количеству лени
artoodetoo    ↓ 
21 Декабрь, 2010, 10:53:58 , спустя 7 минут 21 секунду
НЕ ХУЕТА! ХУЕТА!

с особым цинизмом
Группа: в ухо

Карма: 124
Сообщений: 3805
Сила слова: 3.26

Спасибо kostyl, автомат может и хороший, но не тот. Мне надо HTML в 100 строк.
Записан
kostyl    ↓ 
21 Декабрь, 2010, 11:23:43 , спустя 29 минут 45 секунд
НЕ ХУЕТА! ХУЕТА!

занедельный антипаттерн
Группа: Джедаи

Карма: 60
Сообщений: 3522
Сила слова: 1.7

artoodetoo, да можно сделать автомат и в несколько строчек... я привёл подобие пировского...
Записан

качество жизни обратно пропорционально количеству лени
artoodetoo    ↓ 
21 Декабрь, 2010, 11:34:23 , спустя 10 минут 40 секунд
НЕ ХУЕТА! ХУЕТА!

с особым цинизмом
Группа: в ухо

Карма: 124
Сообщений: 3805
Сила слова: 3.26

Вот сам набросал
PHP

<?php
 
error_reporting(-1);
 
class MyHtmlTidy
{
    const
        TAG  = '<(?:"[^"]*"|\'[^\']*\'|[^\'">])*>',
        ATTR = '\w++\s*=\s*"[^"]++"|\w++\s*=\s*\'[^\']++\'|\w++\s*=\s*[^\s]++';
 
    private
        $_goodTags  = array('b', 'i', 'u', 's', 'p', 'a', 'img', 'br', 'hr'),
        $_selfClose = array('img', 'br', 'hr'),
        $_goodAttrs = array(
                      'a'   => array('href', 'title'),
                      'img' => array('src', 'alt')),
        $_nest      = array();
 
    public
        $errors = array();
 
    public function preparse($html)
    {
        $this->_nest = array();
        $this->errors = array();
        $text = preg_replace_callback('/('.self::TAG.')/Uus', array($this, '_replace'), $html);
        if (!empty($this->_nest)) {
            $this->errors[] = 'Unclosed tags ' . implode(', ', $this->_nest);
            $text .= '</' . implode('></', array_reverse($this->_nest)) . '>';
        }
        return $text;
    }
 
    private function _replace($matches)
    {
        $tag = $matches[1];
 
        preg_match('/^<\/?(\w++)/', $tag, $m);
        $tagName = strtolower($m[1]);
        $isSelfClosed = $tag{strlen($tag) - 2} == '/';
        $attrs = trim(substr($tag, strlen($m[0]), ($isSelfClosed ? -2 : -1)));
 
        if (!in_array($tagName, $this->_goodTags)) {
            $this->errors[] = 'Tag ' . $tagName . ' is deprecated';
            return '';
        }
 
        // Closing tag
        if ($tag{1} == '/') {
            if (empty($this->_nest) || end($this->_nest) != $tagName) {
                $this->errors[] = 'Odd close tag ' . $tagName;
                return '<' . $tagName . '></' . $tagName . '>';
            }
            array_pop($this->_nest);
            return '</' . $tagName . '>';
        }
 
        // Open tag or self-closing tag
        $isSelfClosed = $isSelfClosed || in_array($tagName, $this->_selfClose);
 
        if (!$isSelfClosed) {
            $this->_nest[] = $tagName;
        }                       
 
        if (!isset($this->_goodAttrs[$tagName])) {
            // No attributes at all
            if (strlen($attrs)) {
                $this->errors[] = 'Tag ' . $tagName . ' cannot have attributes';
            }
            $attrs = '';
        } else {
            // Check every attribute
            preg_match_all('/'.self::ATTR.'/Uus', $attrs, $m);
            $attrs = $m[0];
            foreach ($attrs as $i => $attr) {
                $p = strpos($attr, '=');
                $attrName = strtolower(trim(substr($attr, 0, $p)));
                if (!in_array($attrName, $this->_goodAttrs[$tagName])) {
                    $this->errors[] = 'Wrong ' . $tagName . ' attribute ' . $attrName;
                    unset($attrs[$i]);
                } else {
                    $attrs[$i] = $attrName . '=' . trim(substr($attr, $p + 1));
                }
            }
            $attrs = count($attrs) ? (' ' . implode(' ', $attrs)) : '';
        }
   
        return '<' . $tagName . $attrs . ($isSelfClosed ? '/>' : '>');
    }
}
 
$t = new MyHtmlTidy();
 
$html = <<<HTML
<p class='blabla'>dslkldsldslsd<br>
kjksdjsdk<a href="http://thesite.name/path" target="_new" title="ololo" onclick="javascript:doit('xxx')">djdkjdk</a>
<img src=0.gif alt='pysh-pysh'>
ds;lsd;; <b>skjskjsk kjdkjdkd
HTML;
 
header('Content-type: text/plain');
 
echo $html;
echo "\n===========================\n";
 
$preparsed = $t->preparse($html);
if (!empty($t->errors)) {
    echo implode("\n", $t->errors);
    echo "\n===========================\n";
}
echo $preparsed;
 

вывод:
Text

<p class='blabla'>dslkldsldslsd<br>
kjksdjsdk<a href="http://thesite.name/path" target="_new" title="ololo" onclick="javascript:doit('xxx')">djdkjdk</a>
<img src=0.gif alt='pysh-pysh'>
ds;lsd;; <b>skjskjsk kjdkjdkd
===========================
Tag p cannot have attributes
Wrong a attribute target
Wrong a attribute onclick
Unclosed tags p, b
===========================
<p>dslkldsldslsd<br/>
kjksdjsdk<a href="http://thesite.name/path" title="ololo">djdkjdk</a>
<img src=0.gif alt='pysh-pysh'/>
ds;lsd;; <b>skjskjsk kjdkjdkd</b></p>
 

Кому нелениво, поищите дыры, пожалуйста.
Спустя 1 минуту 54 секунды добавил
Не знаю как мне с тем же preg_replace_callback ухитриться еще переводы строк в br превращать.
Наверное preg_split надо.
Записан
phpdude    ↓ 
21 Декабрь, 2010, 12:44:56 , спустя 1 час 10 минут 33 секунды
НЕ ХУЕТА! ХУЕТА!

я - ЭМО
Группа: в ухо

Карма: 344
Сообщений: д-о-х-у-я!
Сила слова: 1.65

суров. домой придет поищу :-)
Записан

забанен. могу забанить других, пишите в личку
BEER. Helping ugly people have sex since 1862.
AndryG    ↓ 
27 Декабрь, 2010, 02:12:20 , спустя 6 дней 1 час 27 минут 24 секунды
НЕ ХУЕТА! ХУЕТА!
Группа: Адекваты

Карма: 1
Сообщений: 233
Сила слова: 0.43

Использовать автомат - оно, конечно, правильней регулярки. Но автомат нужно построить почти такой же, как в браузеры юзают.
Напрашивается идея его и юзать.
 
Загрузить код в DOM (он сам закрывает теги и отбросить прочие разночтения.)
За тем пройтись по дереву рекурсивным обходчиком ... для разрешенных тегов, забирать и тег и содержимое. Для остальных - только голый текст брать.
И код будет небольшой, и 100% никакой жук не пролезет.
 
Спустя 1 минуту 29 секунд добавил
Дайте редактировать свои посты ... хрен ошибки исправишь!
Записан
phpdude    ↓ 
27 Декабрь, 2010, 04:15:51 , спустя 2 часа 3 минуты 31 секунду
НЕ ХУЕТА! ХУЕТА!

я - ЭМО
Группа: в ухо

Карма: 344
Сообщений: 20790
Сила слова: 1.65

а ты не ошибайся
Записан

забанен. могу забанить других, пишите в личку
BEER. Helping ugly people have sex since 1862.
Страниц: 1 [2]
Печать
 

Перейти в:  

Этот топик скрыли: adw0rd