Парсим текст с веб-страницы, используя броузер lynx и grep

Обработка текста

Вы можете быстро получить необходимый Вам текст или другие данные с веб-страницы, используя броузер lynx и grep, или другие инструменты для обработки текста. lynx может сформировать дамп содержимого веб-страниц двумя способами: только текст страницы, или полный дамп HTML источника страницы.

 

Чтобы извлечь текст веб-страницы с разметкой HTML , вы можете использовать опцию -dump подобно этому:

lynx -dump «http://www.webbot.org.ua/»



Если вы хотите получить полный исходный код, вы можете использовать опцию -source :

lynx -source «http://www.webbot.org.ua/»



Вы можете затем передавать полученный вывод веб-страницы в grep и sed подобно этому:

lynx -source «http://www.webbot.org.ua/» | grep -o ‘ваше регулярное выражение здесь’ | sed ‘s/здесь html tags//g’

В вкратце разберём последовательность происходящего:

  1. lynx скачивает исходный код страницы по адресу http://www.webbot.org.ua/.
  2. Grep используя опцию -o извлекает только соответствующую часть строки, которая содержит ваше регулярное выражение. В данном случае возможно,что некоторые HTML tags прикрепляются с некоторым текстом, который вы хотите извлечь где-нибудь посередине строки.Отметьте, что это будет только работать, если это все появляется в одной строке. Мы собираемся обеспечить некоторые лучшие примеры вскоре, но пока этот сценарий имеет некоторые полезные составляющие.
  3. Затем sed убирает тэги HTML, чтобы оставить только текст в без разметки HTML.

Это  грубый и простой путь сохранить необходимые данные с веб-страницы и, возможно, он не обеспечивает совершенные результаты, но это показывает основные понятия и может быть применимы к вашим потребностям.

 

Share this Post

Похожие публикации:

  1. Переодически извлекаем с веб-страницы информацию
  2. Один из способов сохранения web-страниц с помощью lynx
  3. Как рассчитать число ссылок на странице с помощью lynx?
Запись опубликована в рубрике lynx с метками , , , , , . Добавьте в закладки постоянную ссылку.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

*

Можно использовать следующие HTML-теги и атрибуты: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>