Lynx изначально поддерживает автоматизацию при работе в Интернете.

Например,нижестоящая команда выполнит, ранее записанные все Ваши перемещения и нажатия клавиш в файл

lynx -accept_all_cookies -cmd_script=/путь/название Вашего файла

Эта команда покажет lynx прочитать символы из указанного файла, которые могут быть использованы в заданиях cron для автоматического входа на веб-сайты, которые дают вам,например,возможность для входа в систему один раз в день (именно поэтому  использовалась опция -accept_all_cookies).

Для создания Вашего файла скрипта,используйте

lynx -cmd_log=названия Вашего файла


Обработка текста

Вы можете быстро получить необходимый Вам текст или другие данные с веб-страницы, используя броузер lynx и grep, или другие инструменты для обработки текста. lynx может сформировать дамп содержимого веб-страниц двумя способами: только текст страницы, или полный дамп HTML источника страницы.

 

Чтобы извлечь текст веб-страницы с разметкой HTML , вы можете использовать опцию -dump подобно этому:

lynx -dump «http://www.webbot.org.ua/»



Если вы хотите получить полный исходный код, вы можете использовать опцию -source :

lynx -source «http://www.webbot.org.ua/»



Вы можете затем передавать полученный вывод веб-страницы в grep и sed подобно этому:

lynx -source «http://www.webbot.org.ua/» | grep -o ‘ваше регулярное выражение здесь’ | sed ‘s/здесь html tags//g’

В вкратце разберём последовательность происходящего: Читать далее “Парсим текст с веб-страницы, используя броузер lynx и grep” »

© 2010 Bot on WEB