Переодически извлекаем с веб-страницы информацию
В предыдущем посту мы рассказали про два способа получения данных с веб-страниц, а в настоящей статье Вы получите пример обработки этих данных.
Следующий сценарий показывает, как получать требуемые данные через список URLS в текстовом файле,который находится в файле urls.txt и извлечь некоторое содержимое из них:
while read inputlinedo url="$(echo $inputline)" mydata="$(lynx -source $url | grep -o 'ваше регулярное выражение здесь' | sed 's/здесь ненужные html tags //g')" echo "$url,$mydata" >> myfile.csv sleep 2done <urls.txt
Шаги сценарий делает в последовательности, как указано ниже:
1.While/do/done цикл читает из файла urls.txt вводя строку в сценарий из строки ввода.
2.Текущая строка файла (URL) предназначена для переменной $url.
3.lynx используется, чтобы получить исходный код переменной $URL.
4.Данные URL затем передаются в grep, где некоторая текстовая внутренняя часть тэгов HTML будет извлечена.
5.Sed используется, чтобы удалить тэги HTML.
6.URL и заголовок затем присоединяются и передаются к новому файлу myfile.csv.
Если необходимо, то вы можете обеспечить бездействие сценария пару секунд перед дальнейшем парсингом (scrap) иного URL
Это только грубый пример одного из путей получить данные (scrap) страницы в терминале Linux. Если вы знаете язык сценариев подобно Perl, Perl, Python или Ruby, вы можете использовать их, чтобы проанализировать HTML в более изящной форме.
Share this Post






























