В предыдущем посту мы рассказали про два способа получения данных с веб-страниц, а в настоящей статье Вы получите пример обработки этих данных.

Следующий сценарий показывает, как получать требуемые данные через список URLS в текстовом файле,который находится в файле urls.txt и извлечь некоторое содержимое из них:
while read inputline
do
url="$(echo $inputline)"
mydata="$(lynx -source $url | grep -o 'ваше регулярное выражение здесь' | sed 's/здесь ненужные html tags //g')"
echo "$url,$mydata" >> myfile.csv
sleep 2
done <urls.txt

Шаги сценарий делает в последовательности, как указано ниже:

1.While/do/done цикл читает из файла urls.txt вводя строку в сценарий из строки ввода.

2.Текущая строка файла (URL) предназначена для переменной $url.

3.lynx используется, чтобы получить исходный код переменной $URL.

4.Данные URL затем передаются в grep, где некоторая текстовая внутренняя часть тэгов HTML будет извлечена.

5.Sed используется, чтобы удалить тэги HTML.

6.URL и заголовок затем присоединяются и передаются к новому файлу myfile.csv.

Если необходимо, то вы можете обеспечить бездействие сценария пару секунд перед дальнейшем парсингом (scrap) иного URL





    Это только грубый пример одного из путей получить данные (scrap) страницы в терминале Linux. Если вы знаете язык сценариев подобно Perl, Perl, Python или Ruby, вы можете использовать их, чтобы проанализировать HTML в более изящной форме.

 

Share this Post

Похожие публикации:

  1. Парсим текст с веб-страницы, используя броузер lynx и grep
  2. Один из способов сохранения web-страниц с помощью lynx
  3. Как рассчитать число ссылок на странице с помощью lynx?

Оставить комментарий

(обязательно)

(обязательно)

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

© 2010 Bot on WEB