Главная > lynx > Парсим текст с веб-страницы, используя броузер lynx и grep

Парсим текст с веб-страницы, используя броузер lynx и grep

Обработка текста

Вы можете быстро получить необходимый Вам текст или другие данные с веб-страницы, используя броузер lynx и grep, или другие инструменты для обработки текста. lynx может сформировать дамп содержимого веб-страниц двумя способами: только текст страницы, или полный дамп HTML источника страницы.

 

Чтобы извлечь текст веб-страницы с разметкой HTML , вы можете использовать опцию -dump подобно этому:

lynx -dump “http://www.webbot.org.ua/”



Если вы хотите получить полный исходный код, вы можете использовать опцию -source :

lynx -source “http://www.webbot.org.ua/”



Вы можете затем передавать полученный вывод веб-страницы в grep и sed подобно этому:

lynx -source “http://www.webbot.org.ua/” | grep -o ‘ваше регулярное выражение здесь’ | sed ’s/здесь html tags//g’

В вкратце разберём последовательность происходящего:

  1. lynx скачивает исходный код страницы по адресу http://www.webbot.org.ua/.
  2. Grep используя опцию -o извлекает только соответствующую часть строки, которая содержит ваше регулярное выражение. В данном случае возможно,что некоторые HTML tags прикрепляются с некоторым текстом, который вы хотите извлечь где-нибудь посередине строки.Отметьте, что это будет только работать, если это все появляется в одной строке. Мы собираемся обеспечить некоторые лучшие примеры вскоре, но пока этот сценарий имеет некоторые полезные составляющие.
  3. Затем sed убирает тэги HTML, чтобы оставить только текст в без разметки HTML.

Это  грубый и простой путь сохранить необходимые данные с веб-страницы и, возможно, он не обеспечивает совершенные результаты, но это показывает основные понятия и может быть применимы к вашим потребностям.

 

Share this Post

Распространяйте и наслаждайтесь:
  • Print this article!
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Google Bookmarks
  • Diigo
  • Live
  • MySpace
  • RSS
  • StumbleUpon
  • Technorati
  • Twitter
  • Yahoo! Bookmarks
  • FriendFeed
  • HackerNews
  • LinkedIn
  • MyShare
  • Propeller
  • Upnews
Categories: lynx Tags: , , , , ,
  1. Пока что нет комментариев.
  1. Пока что нет уведомлений.