В предыдущем посту мы рассказали про два способа получения данных с веб-страниц, а в настоящей статье Вы получите пример обработки этих данных.
Следующий сценарий показывает, как получать требуемые данные через список URLS в текстовом файле,который находится в файле urls.txt и извлечь некоторое содержимое из них:
while read inputline
do
url="$(echo $inputline)"
mydata="$(lynx -source $url | grep -o 'ваше регулярное выражение здесь' | sed 's/здесь ненужные html tags //g')"
echo "$url,$mydata" >> myfile.csv
sleep 2
done <urls.txt
Шаги сценарий делает в последовательности, как указано ниже: Читать далее “Переодически извлекаем с веб-страницы информацию” »

Обработка текста
Вы можете быстро получить необходимый Вам текст или другие данные с веб-страницы, используя броузер lynx и grep, или другие инструменты для обработки текста. lynx может сформировать дамп содержимого веб-страниц двумя способами: только текст страницы, или полный дамп HTML источника страницы.
Чтобы извлечь текст веб-страницы с разметкой HTML , вы можете использовать опцию -dump подобно этому:
lynx -dump «http://www.webbot.org.ua/»
Если вы хотите получить полный исходный код, вы можете использовать опцию -source :
lynx -source «http://www.webbot.org.ua/»
Вы можете затем передавать полученный вывод веб-страницы в grep и sed подобно этому:
lynx -source «http://www.webbot.org.ua/» | grep -o ‘ваше регулярное выражение здесь’ | sed ‘s/здесь html tags//g’
В вкратце разберём последовательность происходящего: Читать далее “Парсим текст с веб-страницы, используя броузер lynx и grep” »