Категория PHP
Увидев на просторах интернета парсер (parser) новостей яндекса решил проделать тоже самое, но с Google.
Итак, сегодня мы напишем парсер новостей google.ru на php, программу (скрипт), которая будет извлекать контент с удаленного сайта и выводить на нашей странице. Мы будем использовать новости с текстовой версии новостей, так как там менее захламлен код. Идем по ссылке http://news.google.ru/news?ned=tru_ru&rec=0 и анализируем HTML-код. Находим в нем уникальные строки, по которым мы определим – ОТ какого участка кода и ДО какого мы будем отбирать нужный нам контент.
Находим в коде такой текст: “
” – пусть это будет начало блока… и текст ‘
’ (тег разделительной линии), которым наш новостной блок заканчивается.
$content = file_get_contents('http://news.google.ru/news?ned=tru_ru&rec=0');// Определяем позицию строки, с которой мы будем копировать код. Функция strpos.
$pos = strpos($content, '');// Присваиваем переменной $content скопированный с помощью substr код, начиная с позиции $pos.
$content = substr($content, $pos);// Находим позицию второй строки
$pos = strpos($content, '
');// Отрезаем нужное количество символов от нулевого
$content = substr($content, 0, $pos);// Чтобы не подгружать изображения, я удаляю теги
$content = str_replace('', '', $content);// выводим полученный код.
echo $content;
?>
]]>
Добавить в закладки
]]>
Теги: google, программирование
июля 12, 2009
Оставьте комментарий: