Klavaro, довольно таки полезный клавиатурный тренажер, созданный, чтобы увеличить скорость и качество набора текста. Нам приятно констатировать тот факт, что все это время Klavaro не стоял на месте: добавилось огромное множество переводов и альтернативных раскладок клавиатур.

Поскольку в плане зависимостей его требования весьма скромны, вы очень скоро с головой погрузитесь в океан различных клавиатур. Помимо стандартных раскладок для британского (UK) и американского (US) английского, имеются так же раскладка Дворжака [Dvorak] и раскладки клавиатуры для большинства язык ов, включая русский. Читать далее “Полезный клавиатурный тренажер под ubuntu” »

Lynx изначально поддерживает автоматизацию при работе в Интернете.

Например,нижестоящая команда выполнит, ранее записанные все Ваши перемещения и нажатия клавиш в файл

lynx -accept_all_cookies -cmd_script=/путь/название Вашего файла

Эта команда покажет lynx прочитать символы из указанного файла, которые могут быть использованы в заданиях cron для автоматического входа на веб-сайты, которые дают вам,например,возможность для входа в систему один раз в день (именно поэтому  использовалась опция -accept_all_cookies).

Для создания Вашего файла скрипта,используйте

lynx -cmd_log=названия Вашего файла


В предыдущем посту мы рассказали про два способа получения данных с веб-страниц, а в настоящей статье Вы получите пример обработки этих данных.

Следующий сценарий показывает, как получать требуемые данные через список URLS в текстовом файле,который находится в файле urls.txt и извлечь некоторое содержимое из них:
while read inputline
do
url="$(echo $inputline)"
mydata="$(lynx -source $url | grep -o 'ваше регулярное выражение здесь' | sed 's/здесь ненужные html tags //g')"
echo "$url,$mydata" >> myfile.csv
sleep 2
done <urls.txt

Шаги сценарий делает в последовательности, как указано ниже: Читать далее “Переодически извлекаем с веб-страницы информацию” »

Обработка текста

Вы можете быстро получить необходимый Вам текст или другие данные с веб-страницы, используя броузер lynx и grep, или другие инструменты для обработки текста. lynx может сформировать дамп содержимого веб-страниц двумя способами: только текст страницы, или полный дамп HTML источника страницы.

 

Чтобы извлечь текст веб-страницы с разметкой HTML , вы можете использовать опцию -dump подобно этому:

lynx -dump «http://www.webbot.org.ua/»



Если вы хотите получить полный исходный код, вы можете использовать опцию -source :

lynx -source «http://www.webbot.org.ua/»



Вы можете затем передавать полученный вывод веб-страницы в grep и sed подобно этому:

lynx -source «http://www.webbot.org.ua/» | grep -o ‘ваше регулярное выражение здесь’ | sed ‘s/здесь html tags//g’

В вкратце разберём последовательность происходящего: Читать далее “Парсим текст с веб-страницы, используя броузер lynx и grep” »

Сила открытых операционных систем так называемых Unix-based , в том числе GNU/Linux, BSD, ОС Mac  состоит в том, что Вы можете передавать по каналам команды и выполнять скрипты единовременно с объединением их вместе в одной строке.

А если более конкретно, то по каналам отправляется вывод одной команды на ввод следующей команды.

В качестве примера можно привести использование команды grep, чтобы найти все строки в logfile, которые содержат запись Googlebot, а затем отправить найденные строки команде wc, чтобы пересчитать их:

grep ‘Googlebot’ | wc -l

Вывод будет число строк, которые содержат запись Googlebot.

 

Статья ранее была опубликовано на сервере opennet.ru, но здесь выкладываю с единой целью — чтобы не потерялась в анналах закладок, а также для пользы сообщества.

При необходимости автомонтирования ftp и ssh в локальную директорию будем использовать FUSE модули curlftpfs (http://curlftpfs.sourceforge.net/) и  sshfs (http://fuse.sourceforge.net/sshfs.html).Curlftpfs – поддерживает стойкое шифрование (SSLv3/TLSv1)и может работать поверх HTTP-прокси,а также автоматически обрабатывать потерю соединения.

Sshfs имеет достоинство в возможности кэширования содержимого директорий.

При работы с FUSE от имени локального пользователя нужно добавить его в группу fuse:

sudo addgroup логин fuse

Настраиваем права доступа к каталогу, в которую будем производить монтирование:

chgrp fuse /home/user/mnt
chmod g+w /home/user/mnt

Устанавливаем curlftpfs и sshfs:

aptitude install fuse-utils curlftpfs sshfs

или для RedHat подобных дистрибутивов:

yum install fuse-utils curlftpfs sshfs Читать далее “Автоматизация монтирования ftp и ssh” »
© 2010 Bot on WEB