Обработка текста

Вы можете быстро получить необходимый Вам текст или другие данные с веб-страницы, используя броузер lynx и grep, или другие инструменты для обработки текста. lynx может сформировать дамп содержимого веб-страниц двумя способами: только текст страницы, или полный дамп HTML источника страницы.

 

Чтобы извлечь текст веб-страницы с разметкой HTML , вы можете использовать опцию -dump подобно этому:

lynx -dump «http://www.webbot.org.ua/»



Если вы хотите получить полный исходный код, вы можете использовать опцию -source :

lynx -source «http://www.webbot.org.ua/»



Вы можете затем передавать полученный вывод веб-страницы в grep и sed подобно этому:

lynx -source «http://www.webbot.org.ua/» | grep -o ‘ваше регулярное выражение здесь’ | sed ‘s/здесь html tags//g’

В вкратце разберём последовательность происходящего: Читать далее “Парсим текст с веб-страницы, используя броузер lynx и grep” »

Tmpwatch – удобная утилита для автоматической очистки каталогов от старых файлов, например для /tmp. Не надо заморачиваться с написанием всякого рода сценариев. Достаточно ввести одну команду и всё будет готово.

Однако в Debian она отсутствует. И apt такую не находит и не знает.Мы с Вами исправим данную оплошность и устанoвим необходимую утилиту ( релиз на момент использования может быть другим!):

cd /usr/src
wget https://fedorahosted.org/releases/t/m/tmpwatch/tmpwatch-2.9.13.tar.bz2
tar jxf tmpwatch-2.9.13
cd tmpwatch-2.9.13
make install

Использовать удобно и просто. Для примера приводим удаление файлов в каталоге /dir , модифицированных 24 и более часов назад:

tmpwatch -m 24 /dir


© 2010 Bot on WEB