lynx -crawl

Мы много уделяем внимание текстовому браузеру Lynx. Не смотря на давность происхождения и отсутствие поддержки ряда стандартных для современности функций и опций, lynx не потерял своего достойного места в средствах администрировании и автоматизации действий пользователя на просторах Интернета.

Сегодня мы опишим способ сохранения web-страниц с помощью вышеназванного браузера. Для чего эта надо? Если вы читаете текст, то ,естественно, будете применять данный способ в своих скриптах,программах и т.п..

И так для начало создадим каталог для теста:

mkdir lynx_test

Зайдём в директорию :

cd ./lynx_test

Запустите команду lynx с опцией -crawl, которая исследует все ссылки на данном сайте и запишет историю в файл c расширением .dat. Не делайте так на больших веб-сайтах, потому что это расходует много трафика на сайте.

lynx -crawl -traversal «http://www.webbot.com»

Ознакомиться с более подробной информацией относительно файлов, созданных с -traversal можно здесь.

Вы можете изменить расширения файла .dat к .txt следующей командой. Только убедитесь, что вы находитесь в правильном каталоге сначала:

rename -v ‘s/\.dat$/\.txt/’ *.dat

Или удалить расширения файла в полностью следующей командой:

rename -v ‘s/\.dat$//’ *.dat

Предположим, что вы пока оставили расширения файла .dat , далее приводим список файлов и что они содержат:

  • traverse.dat — Этот файл содержит список URLS, которые были исследованы.
  • traverse2.dat — Этот файл содержит список URLS, в том числе заголовок HTML <title>. Они перечисляются в запросе и могут повторяться.
  • lnk00000###.dat — Каждая извлеченная веб-страница будет сохранена в пронумерованном файле с заголовками HTML и URLS вверху. Lynx - текстовый браузер, так что эти файлы будут только содержать текстовое содержимое от веб-страниц. Я имею неприятность открыть эти файлы с помощью Nautilus, но вы можете легко открыть их в терминале с помощью gedit lnk0000001.dat или vim lnk0000001.dat.

Если вы захотите сохранить все страницы текста в одном файле для поиска с визуальным текстовым редактором на подобии gedit, SCITE, или Notepad, то можете использовать команду cat подобно этому:

cat * >MyFile.txt

Это создаст файл с названием MyFile.txt, который содержит весь текст файлов в текущем каталоге.

Вы можете также можете искать необходимый текст с помощью команды grep. Перейдите в каталог с файлами, которые вы хотите найти и набирите что-нибудь:

grep -i «ваши поисковые термины» *

-опция -i является чувствительной к регистру. Для более конкретной информации о grep можете ознакомиться man grep.

Обращаю Ваше  внимание при использовании примеров – кавычки в терминале должны быть заменены!

 

 

Похожие публикации:

  1. Как рассчитать число ссылок на странице с помощью lynx?
  2. Автоматизируем работу в Интернете с помощью lynx
  3. Парсим текст с веб-страницы, используя броузер lynx и grep

Оставить комментарий

(обязательно)

(обязательно)

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

© 2010 Bot on WEB