Вы можете быстро получить необходимый Вам текст или другие данные с веб-страницы, используя броузер lynx и grep, или другие инструменты для обработки текста.lynx может сформировать дамп содержимого веб-страниц двумя способами: только текст страницы, или полный дамп HTML источника страницы.
Чтобы извлечь текст веб-страницы с разметкой HTML , вы можете использовать опцию -dump подобно этому:
Использованиеgrep с опцией -v говорит утилите дать все строки, которые не соответствуют шаблону. В данном случае это даст Вам все ссылки, которые не включают имя домена на текущей веб-страницы.
lynxможет использоваться с опцией -dump , чтобы сформировать дамп текста или связываемые веб-страницы в терминале. Этот вывод может затем передаваться в команду grep , которая может извлечь ссылки (urls) или другую информацию.
Следующая строка рассчитает число имеющихся ссылок на веб-странице, в том числе внутренние и внешние :
Посмотрите для получения более конкретной информации о том, какlynxи grep могут работать вместе, чтобы извлечь ссылки.
Команда wc -1 пересчитывает число строк. В данном случае, каждая строка – одна ссылка, так, пересчитывая таким способом строки, дается вам иформация о числе ссылок на веб-странице.