Эта команда покажет lynx прочитать символы из указанного файла, которые могут быть использованы в заданиях cron для автоматического входа на веб-сайты, которые дают вам,например,возможность для входа в систему один раз в день (именно поэтому использовалась опция -accept_all_cookies).
В предыдущем посту мы рассказали про два способа получения данных с веб-страниц, а в настоящей статье Вы получите пример обработки этих данных.
Следующий сценарий показывает, как получать требуемые данные через список URLS в текстовом файле,который находится в файле urls.txt и извлечь некоторое содержимое из них:
while read inputline do url="$(echo $inputline)" mydata="$(lynx -source $url | grep -o 'ваше регулярное выражение здесь' | sed 's/здесь ненужные html tags //g')" echo "$url,$mydata" >> myfile.csv sleep 2 done <urls.txt
Вы можете быстро получить необходимый Вам текст или другие данные с веб-страницы, используя броузер lynx и grep, или другие инструменты для обработки текста.lynx может сформировать дамп содержимого веб-страниц двумя способами: только текст страницы, или полный дамп HTML источника страницы.
Чтобы извлечь текст веб-страницы с разметкой HTML , вы можете использовать опцию -dump подобно этому:
Мы много уделяем внимание текстовому браузеру— Lynx. Не смотря на давность происхождения и отсутствие поддержки ряда стандартных для современности функций и опций, lynx не потерял своего достойного места в средствах администрировании и автоматизации действий пользователя на просторах Интернета.
Сегодня мы опишим способ сохранения web-страниц с помощью вышеназванного браузера. Для чего эта надо? Если вы читаете текст, то ,естественно, будете применять данный способ в своих скриптах,программах и т.п..
И так для начало создадим каталог для теста:
mkdir lynx_test
Зайдём в директорию :
cd ./lynx_test
Запустите команду lynx с опцией -crawl, которая исследует все ссылки на данном сайте и запишет историю в файл c расширением .dat. Не делайте так на больших веб-сайтах, потому что это расходует много трафика на сайте.
Использование grep с опцией -v говорит утилите дать все строки, которые не соответствуют шаблону. В данном случае это даст Вам все ссылки, которые не включают имя домена на текущей веб-страницы.
lynxможет использоваться с опцией -dump , чтобы сформировать дамп текста или связываемые веб-страницы в терминале. Этот вывод может затем передаваться в команду grep , которая может извлечь ссылки (urls) или другую информацию.
Следующая строка рассчитает число имеющихся ссылок на веб-странице, в том числе внутренние и внешние :
Посмотрите для получения более конкретной информации о том, какlynxи grep могут работать вместе, чтобы извлечь ссылки.
Команда wc -1 пересчитывает число строк. В данном случае, каждая строка – одна ссылка, так, пересчитывая таким способом строки, дается вам иформация о числе ссылок на веб-странице.
Хочу начать тему автоматизации с небольшой заметки о самом великом браузере всех времён и народов – LYNX. Почему именно о нем? Что такого у проектаopen source, что делает его привлекательным?
Тогда отвечу по порядку:
Lynx – текстовый браузер,что поддерживает выполнение скриптов,т.е. автоматизация встроена в его функционал.
Lynx – браузер,что, подобно знаменитому firefox, настраивается под человека. Для этого можно править конфиг в редакторе или через псевдографическое меню.