Парсим текст с веб-страницы, используя броузер lynx и grep
Вы можете быстро получить необходимый Вам текст или другие данные с веб-страницы, используя броузер lynx и grep, или другие инструменты для обработки текста. lynx может сформировать дамп содержимого веб-страниц двумя способами: только текст страницы, или полный дамп HTML источника страницы.
Чтобы извлечь текст веб-страницы с разметкой HTML , вы можете использовать опцию -dump подобно этому:
lynx -dump “http://www.webbot.org.ua/”Если вы хотите получить полный исходный код, вы можете использовать опцию -source :
lynx -source “http://www.webbot.org.ua/”Вы можете затем передавать полученный вывод веб-страницы в grep и sed подобно этому:
lynx -source “http://www.webbot.org.ua/” | grep -o ‘ваше регулярное выражение здесь’ | sed ’s/здесь html tags//g’В вкратце разберём последовательность происходящего:
- lynx скачивает исходный код страницы по адресу http://www.webbot.org.ua/.
- Grep используя опцию -o извлекает только соответствующую часть строки, которая содержит ваше регулярное выражение. В данном случае возможно,что некоторые HTML tags прикрепляются с некоторым текстом, который вы хотите извлечь где-нибудь посередине строки.Отметьте, что это будет только работать, если это все появляется в одной строке. Мы собираемся обеспечить некоторые лучшие примеры вскоре, но пока этот сценарий имеет некоторые полезные составляющие.
- Затем sed убирает тэги HTML, чтобы оставить только текст в без разметки HTML.
Это грубый и простой путь сохранить необходимые данные с веб-страницы и, возможно, он не обеспечивает совершенные результаты, но это показывает основные понятия и может быть применимы к вашим потребностям.
Share this Post































