Главная > lynx, Автоматизация > Переодически извлекаем с веб-страницы информацию

Переодически извлекаем с веб-страницы информацию

В предыдущем посту мы рассказали про два способа получения данных с веб-страниц, а в настоящей статье Вы получите пример обработки этих данных.

Следующий сценарий показывает, как получать требуемые данные через список URLS в текстовом файле,который находится в файле urls.txt и извлечь некоторое содержимое из них:
while read inputline
do
url="$(echo $inputline)"
mydata="$(lynx -source $url | grep -o 'ваше регулярное выражение здесь' | sed 's/здесь ненужные html tags //g')"
echo "$url,$mydata" >> myfile.csv
sleep 2
done <urls.txt

Шаги сценарий делает в последовательности, как указано ниже:

1.While/do/done цикл читает из файла urls.txt вводя строку в сценарий из строки ввода.

2.Текущая строка файла (URL) предназначена для переменной $url.

3.lynx используется, чтобы получить исходный код переменной $URL.

4.Данные URL затем передаются в grep, где некоторая текстовая внутренняя часть тэгов HTML будет извлечена.

5.Sed используется, чтобы удалить тэги HTML.

6.URL и заголовок затем присоединяются и передаются к новому файлу myfile.csv.

Если необходимо, то вы можете обеспечить бездействие сценария пару секунд перед дальнейшем парсингом (scrap) иного URL





    Это только грубый пример одного из путей получить данные (scrap) страницы в терминале Linux. Если вы знаете язык сценариев подобно Perl, Perl, Python или Ruby, вы можете использовать их, чтобы проанализировать HTML в более изящной форме.

 

Share this Post

Распространяйте и наслаждайтесь:
  • Print this article!
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Google Bookmarks
  • Diigo
  • Live
  • MySpace
  • RSS
  • StumbleUpon
  • Technorati
  • Twitter
  • Yahoo! Bookmarks
  • FriendFeed
  • HackerNews
  • LinkedIn
  • MyShare
  • Propeller
  • Upnews
  1. Пока что нет комментариев.
  1. Пока что нет уведомлений.