lynx

Lynx изначально поддерживает автоматизацию при работе в Интернете.

Например,нижестоящая команда выполнит, ранее записанные все Ваши перемещения и нажатия клавиш в файл

lynx -accept_all_cookies -cmd_script=/путь/название Вашего файла

Эта команда покажет lynx прочитать символы из указанного файла, которые могут быть использованы в заданиях cron для автоматического входа на веб-сайты, которые дают вам,например,возможность для входа в систему один раз в день (именно поэтому  использовалась опция -accept_all_cookies).

Для создания Вашего файла скрипта,используйте

lynx -cmd_log=названия Вашего файла


В предыдущем посту мы рассказали про два способа получения данных с веб-страниц, а в настоящей статье Вы получите пример обработки этих данных.

Следующий сценарий показывает, как получать требуемые данные через список URLS в текстовом файле,который находится в файле urls.txt и извлечь некоторое содержимое из них:
while read inputline
do
url="$(echo $inputline)"
mydata="$(lynx -source $url | grep -o 'ваше регулярное выражение здесь' | sed 's/здесь ненужные html tags //g')"
echo "$url,$mydata" >> myfile.csv
sleep 2
done <urls.txt

Шаги сценарий делает в последовательности, как указано ниже: Читать далее “Переодически извлекаем с веб-страницы информацию” »

Обработка текста

Вы можете быстро получить необходимый Вам текст или другие данные с веб-страницы, используя броузер lynx и grep, или другие инструменты для обработки текста. lynx может сформировать дамп содержимого веб-страниц двумя способами: только текст страницы, или полный дамп HTML источника страницы.

 

Чтобы извлечь текст веб-страницы с разметкой HTML , вы можете использовать опцию -dump подобно этому:

lynx -dump «http://www.webbot.org.ua/»



Если вы хотите получить полный исходный код, вы можете использовать опцию -source :

lynx -source «http://www.webbot.org.ua/»



Вы можете затем передавать полученный вывод веб-страницы в grep и sed подобно этому:

lynx -source «http://www.webbot.org.ua/» | grep -o ‘ваше регулярное выражение здесь’ | sed ‘s/здесь html tags//g’

В вкратце разберём последовательность происходящего: Читать далее “Парсим текст с веб-страницы, используя броузер lynx и grep” »

lynx -crawl

Мы много уделяем внимание текстовому браузеру Lynx. Не смотря на давность происхождения и отсутствие поддержки ряда стандартных для современности функций и опций, lynx не потерял своего достойного места в средствах администрировании и автоматизации действий пользователя на просторах Интернета.

Сегодня мы опишим способ сохранения web-страниц с помощью вышеназванного браузера. Для чего эта надо? Если вы читаете текст, то ,естественно, будете применять данный способ в своих скриптах,программах и т.п..

И так для начало создадим каталог для теста:

mkdir lynx_test

Зайдём в директорию :

cd ./lynx_test

Запустите команду lynx с опцией -crawl, которая исследует все ссылки на данном сайте и запишет историю в файл c расширением .dat. Не делайте так на больших веб-сайтах, потому что это расходует много трафика на сайте.

lynx -crawl -traversal «http://www.webbot.com» Читать далее “Один из способов сохранения web-страниц с помощью lynx” »

Lynx - с английского "РЫСЬ"

Завершает расчёт  числа внутренних ссылок на страницу с помощью lynx, следующий пример:

lynx -dump "http://isape.ru/" | grep -o "http://isape.ru" | wc -l

Подобно приведённому выше примеру, это только пересчитает ссылки (urls), которые включают имя домена текущей веб-страницы.


Используем опыт предыдущего поста, постараемся  пересчитать число внешних ссылок на странице с помощью любимого браузера lynx

lynx -dump "http://www.webbot.org.ua/"|grep -o "http.*" | grep -v "http://www.webbot.org.ua" | wc -l

Использование grep с опцией -v говорит утилите дать все строки, которые не соответствуют шаблону. В данном случае это даст Вам все ссылки, которые не включают имя домена на текущей веб-страницы.

lynx может использоваться с опцией -dump , чтобы сформировать дамп текста или связываемые веб-страницы в терминале. Этот вывод может затем передаваться в команду grep , которая может извлечь ссылки (urls) или другую информацию.

Следующая строка рассчитает число имеющихся ссылок на веб-странице, в том числе внутренние и внешние :

lynx -dump «http://www.example.com/» | grep -o «http.*» | wc -l

Посмотрите GNU/Linux Lynx tutorial для получения  более конкретной информации о том, как lynx и grep могут работать вместе, чтобы извлечь ссылки.

Команда wc -1 пересчитывает число строк. В данном случае, каждая строка – одна ссылка, так, пересчитывая  таким способом строки, дается  вам иформация о числе ссылок на веб-странице.


Хочу начать тему автоматизации с небольшой заметки о самом великом браузере всех времён и народов – LYNX. Почему именно о нем? Что такого у проекта open source, что делает его привлекательным?

Тогда отвечу по порядку:
  1. Lynx – текстовый браузер,что поддерживает выполнение скриптов,т.е. автоматизация встроена в его функционал.
  2. Lynx  – браузер,что, подобно знаменитому firefox, настраивается под человека. Для этого можно править конфиг в  редакторе или через псевдографическое меню.
  3. Lynx используют поисковые машины. Именно так в автомате как в Lynx видят они Интернет! Читать далее “Lynx и автоматизация действий пользователя.” »
© 2010 Bot on WEB