Парсер сайта

Категория PHP

Увидев на просторах интернета парсер (parser) новостей яндекса решил проделать тоже самое, но с Google.

Итак, сегодня мы напишем парсер новостей google.ru на php, программу (скрипт), которая будет извлекать контент с удаленного сайта и выводить на нашей странице. Мы будем использовать новости с текстовой версии новостей, так как там менее захламлен код. Идем по ссылке http://news.google.ru/news?ned=tru_ru&rec=0 и анализируем HTML-код. Находим в нем уникальные строки, по которым мы определим – ОТ какого участка кода и ДО какого мы будем отбирать нужный нам контент.

Находим в коде такой текст: “

” – пусть это будет начало блока… и текст ‘

’ (тег разделительной линии), которым наш новостной блок заканчивается.

$content = file_get_contents('http://news.google.ru/news?ned=tru_ru&rec=0');// Определяем позицию строки, с которой мы будем копировать код. Функция strpos. $pos = strpos($content, '

');// Присваиваем переменной $content скопированный с помощью substr код, начиная с позиции $pos.

        $content = substr($content, $pos);// Находим позицию второй строки

        $pos = strpos($content, '


');// Отрезаем нужное количество символов от нулевого

        $content = substr($content, 0, $pos);// Чтобы не подгружать изображения, я удаляю теги 
        $content = str_replace('', '', $content);// выводим полученный код.

        echo $content;

        ?>
        
        
          Другие посты, близкие по теме:
          
            
              Форум только о Гугл
            
            
              Как сделать RSS ленту для сайта?
            
            
              Собственный поисковик: Веб интерфейс (продолжение)
            
            
              О влиянии RSS на SEO
            
            
              Cоветы по оптимизации сайтов
            
          
        

]]>

        Добавить в закладки


]]>

        Теги: google, программирование
        июля 12, 2009
        
        
        13 комментариев по “Парсер сайта”
        
          
            
]]>
 none 
]]>
 сказал:

            июля 12, 2009 в 22:49
            Нууу… можно ж парсить RSS, это уже более универсально, все ж новостные сайт имеют rss
          
          
            
]]>
 Игорь 
]]>
 сказал:

            августа 15, 2009 в 17:52
            скопировал код один в один.. не работет
          
          
            
]]>
 Nira_S 
]]>
 сказал:

            ноября 6, 2009 в 01:29
            А по мне так то что нужно. Представьте себе на тех сайтах, откуда мне нужны новости, нет rss!
          
          
            
]]>
 
]]>
 сказал:

            ноября 6, 2009 в 03:54
            отличный парсер, это наверно самый простой парсер котопый я встречал за последние двое суток, спасибо за урок
          
          
            
]]>
 
]]>
 сказал:

            ноября 19, 2009 в 20:38
            Чёт я не понял, как его запустить?! Можно поподробнее, ПЛИЗ!!!!
          
          
            
]]>
 Admin 
]]>
 сказал:

            ноября 19, 2009 в 22:48
            modlen,

            это PHP скрипт
          
          
            
]]>
 
]]>
 сказал:

            ноября 20, 2009 в 13:55
            т.е. в файле допустим index.php, вставляем ????
          
          
            
]]>
 
]]>
 сказал:

            ноября 20, 2009 в 13:57
            мля!!! прошу удалить предыдущий комент, т.е. вставляем include(‘допустим файл parser.php’>
          
          
            
]]>
 Admin 
]]>
 сказал:

            ноября 20, 2009 в 20:33
            просто кидаешь этот код допустим в index.php и вызваешь его в браузере
          
          
            
]]>
 АРТЕМ 
]]>
 сказал:

            января 20, 2010 в 05:54
            ДЛЯ НАЧИНАЮЩИХ ОЧЕНЬ КЛАССНО НАПИСАНО!
          
          
            
]]>
 
]]>
 сказал:

            февраля 16, 2010 в 07:44
            В данном случае лучше использовать регулярные выражения, как пример:
            $content= file_get_html(‘http://www.google.com/’);

            $news = array();

            preg_match_all( ‘|(.*)|sUS’, $content, $news );

            print_r( $news);
          
          
            
]]>
 
]]>
 сказал:

            мая 26, 2010 в 21:19
            preg_match_all( ‘|(.*)|sUS’, $content, $news );

            print_r( $news); – принт р выведет просто количество совпадений.

            если прег матч то нужно разобрать на массив и там по полочкам выводить данные.
            проще парсить рсс, simple_xml в помощь
          
          
            
]]>
 
]]>
 сказал:

            мая 30, 2010 в 11:11
            Не люблю регулярки, лучше просто stros и substr
          
        
        Оставьте комментарий:
        
          Имя (обязательно)  Почта (не публикуется) (обязательно)  Веб-сайт  Комментарий 
          
          Сумма 6 + 8 =  
           
        
      
      
        Учить
        
          
            
              PHP
            
            
              HTML
            
            
              CSS
            
            
              JavaScripts (jQuery, AJAX)
            
            
              Разное
            
          
        
        Читать
        
          
            
              Статьи
            
            
              Обзоры сайтов
            
            
              SEO / Оптимизация
            
            
              Заработок
            
            
              Полезное
            
            
              Справочники
            
          
        
        Скачать
        
          
            
              Скрипты
            
            
              Файлы
            
            
              Книги
            
          
        
        Облако тегов
        
          ajax cms CSS delphi DHTML google joomla jQuery MySQL PHP RSS SEO / Оптимизация wordpress Базы Данных Заработок деньги полезное программирование безопасность новый год раскрутка скрипт сервисы сервер юзабилити яндекс
        
        Новостная лента
        
          
            
              RSS записей
            
            
              RSS комментариев
            
          
        
        Популярное
        
          
            Реализация регистрации на сайте на PHP+MySQL
          
          
            Парсер сайта
          
          
            Загрузка выпадающего списка AJAX
          
          
            Выпадающее меню на CSS
          
          
            Развертывание / сворачивание блока с текстом на jQuery
          
        
        Случайное
        
          
            Собственный поисковик: База Данных
          
          
            Реализация регистрации на сайте на PHP+MySQL
          
          
            Партнёрская программа
          
          
            Как привести CSS код к читаемому виду?
          
          
            Blogun.ru - раскрутка и заработок на блоге
          
        
        Архивы
        
          
            Июль 2010
          
          
            Май 2010
          
          
            Апрель 2010
          
          
            Март 2010
          
          
            Февраль 2010
          
          
            Январь 2010
          
          
            Декабрь 2009
          
          
            Ноябрь 2009
          
          
            Сентябрь 2009
          
          
            Август 2009
          
          
            Июль 2009
          
          
            Июнь 2009
          
        
      
    
    
      
        
          Свежие записи
          
            
              Решение проблемы emptyempty в Google Syntax Highlighter
            
            
              Пишем свой модуль для Joomla
            
            
              Зачем и как использовать шаблоны для сайтов
            
            
              Удаленная работа на дому
            
            
              Создание виджета для WordPress
            
            
              Шаблоны – действенный инструмент для создания сайта
            
            
              Как заманить фрилансера на работу в офисе?
            
            
              Контекстная реклама
            
            
              CMS.link и E-Xoopport – бесплатные CMS.
            
            
              Дополнительный заработок – тенденции и проблема выбора.
            
          
        
        
          Свежие комментарии
          
            
              сделано просто и действенно, но есть вопрос, в блоге когда...

              Spi4ka
            
            
              А под IE6 этот чекбокс работает?...

              LD
            
            
              Дождь, снег, пузыри и множество друггих эффектов все бесплатно доступно на...

              нелгн
            
            
              Скачать свежую версию можете скачать с сайта jQuery.ru, справа есть...

              Болат
            
            
              Полезная статья! только как сделать чтобы картинка появлялась с верху...

              Болат
            
          
        
        
          О проекте
          © Copyright 2008-2010 WEBypoku.RU