lynx -crawl
Мы много уделяем внимание текстовому браузеру — Lynx. Не смотря на давность происхождения и отсутствие поддержки ряда стандартных для современности функций и опций, lynx не потерял своего достойного места в средствах администрировании и автоматизации действий пользователя на просторах Интернета.
Сегодня мы опишим способ сохранения web-страниц с помощью вышеназванного браузера. Для чего эта надо? Если вы читаете текст, то ,естественно, будете применять данный способ в своих скриптах,программах и т.п..
И так для начало создадим каталог для теста:
mkdir lynx_test
Зайдём в директорию :
cd ./lynx_test
Запустите команду lynx с опцией -crawl, которая исследует все ссылки на данном сайте и запишет историю в файл c расширением .dat. Не делайте так на больших веб-сайтах, потому что это расходует много трафика на сайте.
lynx -crawl -traversal «http://www.webbot.com»
Ознакомиться с более подробной информацией относительно файлов, созданных с -traversal можно.
Вы можете изменить расширения файла .dat к .txt следующей командой. Только убедитесь, что вы находитесь в правильном каталоге сначала:
rename -v ‘s/\.dat$/\.txt/’ *.dat
Или удалить расширения файла в полностью следующей командой:
rename -v ‘s/\.dat$//’ *.dat
Предположим, что вы пока оставили расширения файла .dat , далее приводим список файлов и что они содержат:
- traverse.dat — Этот файл содержит список URLS, которые были исследованы.
- traverse2.dat — Этот файл содержит список URLS, в том числе заголовок HTML <title>. Они перечисляются в запросе и могут повторяться.
- lnk00000###.dat — Каждая извлеченная веб-страница будет сохранена в пронумерованном файле с заголовками HTML и URLS вверху. Lynx - текстовый браузер, так что эти файлы будут только содержать текстовое содержимое от веб-страниц. Я имею неприятность открыть эти файлы с помощью Nautilus, но вы можете легко открыть их в терминале с помощью gedit lnk0000001.dat или vim lnk0000001.dat.
Если вы захотите сохранить все страницы текста в одном файле для поиска с визуальным текстовым редактором на подобии gedit, SCITE, или Notepad, то можете использовать команду cat подобно этому:
cat * >MyFile.txt
Это создаст файл с названием MyFile.txt, который содержит весь текст файлов в текущем каталоге.
Вы можете также можете искать необходимый текст с помощью команды grep. Перейдите в каталог с файлами, которые вы хотите найти и набирите что-нибудь:
grep -i «ваши поисковые термины» *
-опция -i является чувствительной к регистру. Для более конкретной информации о grep можете ознакомиться man grep.
Обращаю Ваше внимание при использовании примеров – кавычки в терминале должны быть заменены!
Похожие публикации:
