На главную
RiSearch v.1.0 Manual© С. ТарасовИндексированиеRiSearch Pro является индексирующим поисковым скриптом. То есть, перед началом работы он считывает с сервера все файлы и сохраняет информацию о всех найденных словах в определенном формате, для ускорения поиска. Для начала индексации необходимо запустить скрипт "index.pl". Делать это можно или через UnixShell (если провайдер предоставляет Вам такую возможность), запустив его через панель администратора или напрямую через болузер (скрипт запросит пароль, создть который нужно в панели администратора). Во время индексации скрипт создаст файлы базы данных с информацией о Вашем сайте (0_hash, 0_wordind и другие) и сохранит их в директории "db_N", где "N" - некое число. Еще одним методом индексации является использование HTTP протокола. Запустите скрипт "spider.pl" и он начнет загружать страницы с Вашего сервера, попутно вытаскивая из них все ссылки, пока не проиндексирует весь сайт (скрипту "spider.pl" для работы необходим модуль LWP). Это особенно полезно при индексации динамических сайтов.
При запросе страницы с сервера паук идентифициурет себя как
"RiSpider/1.0". Если вам нужно изменить имя агента,
можно сделать это в коде библиотеки "lib/common_lib.pm"
в строке:
При вызове скриптов им можно передать некоторые параметры.
Например:
Индексирование может потребовать значительное количество системных ресурсов. Объем оперативной памяти, необходимой скрипту, зависит от параметра "temp_db_size" и размера индексируемых файлов. И хотя в новой версии значительно снижены требования к объему памяти, скрипт может запросить 100-200 Мб, если размеры файлов превышают 1-2 Мб. Если сайт объемом в 10-20 мегабайт будет проиндексирован без особых проблем, индексация сайта размером в 100 и более мегабайт может чрезмерно загрузить любой сервер. В такой ситуации лучше проводить индексацию на локальной копии сайта. Затем Вы можете просто скопировать созданные при индексации файлы на сервер (пожалуйста используйте при копировании бинарный режим). Пожалуйста учтите еще одно обстоятельство: большинство вебсерверов не позволяют CGI скриптам работать более 30-60 секунд. Если за это время скрипт не закончит свою работу, сервер его просто убьет. Поэтому сайты объемом более нескольких мегабайт необходимо индексировать запуская скрипт через UnixShell, либо индексируя на локальной машине. |
![]() |
|
http://risearch.org | С.Тарасов, © 2000-2003 |
![]() |