Обработка текста

Вы можете быстро получить необходимый Вам текст или другие данные с веб-страницы, используя броузер lynx и grep, или другие инструменты для обработки текста. lynx может сформировать дамп содержимого веб-страниц двумя способами: только текст страницы, или полный дамп HTML источника страницы.

 

Чтобы извлечь текст веб-страницы с разметкой HTML , вы можете использовать опцию -dump подобно этому:

lynx -dump «http://www.webbot.org.ua/»



Если вы хотите получить полный исходный код, вы можете использовать опцию -source :

lynx -source «http://www.webbot.org.ua/»



Вы можете затем передавать полученный вывод веб-страницы в grep и sed подобно этому:

lynx -source «http://www.webbot.org.ua/» | grep -o ‘ваше регулярное выражение здесь’ | sed ‘s/здесь html tags//g’

В вкратце разберём последовательность происходящего: Читать далее “Парсим текст с веб-страницы, используя броузер lynx и grep” »

Используем опыт предыдущего поста, постараемся  пересчитать число внешних ссылок на странице с помощью любимого браузера lynx

lynx -dump "http://www.webbot.org.ua/"|grep -o "http.*" | grep -v "http://www.webbot.org.ua" | wc -l

Использование grep с опцией -v говорит утилите дать все строки, которые не соответствуют шаблону. В данном случае это даст Вам все ссылки, которые не включают имя домена на текущей веб-страницы.

lynx может использоваться с опцией -dump , чтобы сформировать дамп текста или связываемые веб-страницы в терминале. Этот вывод может затем передаваться в команду grep , которая может извлечь ссылки (urls) или другую информацию.

Следующая строка рассчитает число имеющихся ссылок на веб-странице, в том числе внутренние и внешние :

lynx -dump «http://www.example.com/» | grep -o «http.*» | wc -l

Посмотрите GNU/Linux Lynx tutorial для получения  более конкретной информации о том, как lynx и grep могут работать вместе, чтобы извлечь ссылки.

Команда wc -1 пересчитывает число строк. В данном случае, каждая строка – одна ссылка, так, пересчитывая  таким способом строки, дается  вам иформация о числе ссылок на веб-странице.


© 2010 Bot on WEB