Добавил Igor A. Prokofiev
Настройка скрипта RiSearch для многоязыковой поддержки
Web-page: http://www.zipcode.com.ua/
admin@zipcode.com.ua
Примечание: данная информация предназначена для скрипта RiSearch, но с очевидными поправками может использоваться и для RiSearch Pro.
По умолчанию настройки конфигурационного файла config.pl работают корректно с английским и русским языками, т.е. проиндексированные страницы, содержащие русский и/или английский язык, отображают результаты поиска - корректно. В случае, если Вы захотите проиндексировать сайт, содержащий буквы других языков, на отображаемой страницы Вы получите либо слово с пропущенными буквами (т.е. без специфических букв этого языка), либо слово вообще не будет определено правильно.
Поэтому в сложившейся ситуации Вам необходимо внести некоторые изменения в файле config.pl.

Порядок действий

  1. Найдите строки содержащие:
    #===================================================================
    # Change below only if you need multilanguage support
    # With default settings script will work with
    # English, Russian (win1251 encoding) and most European languages
    #===================================================================
    # Capital letters
    $CAP_LETTERS = '\xC0-\xDF\xA8';
    # Lower case letters
    $LOW_LETTERS = '\xE0-\xFF\xB8';


  2. Дополните их соответствующими буквами или символами используемыми на Ваших страницах.
    Значение $CAP_LETTERS - для прописных букв, $LOW_LETTERS - для строчных.
    Примечание. Первое значение в таблице - прописная буква, второе (через пробел) - строчная буква.

    Язык
    Символ
    ANSII-код
    ПРОПИСНАЯ буква
    строчная буква
    Украинский язык
    І и і
    Ї и ї
    Є и є
    Ґ и ґ
    xB2
    xAF
    xAA
    xA5
    x92
    xB3
    xBF
    xBA
    xB4
    x92
    Апостроф ( ’ ), набирается нажатием клавиш Alt + последовательно 0146 на NUMPAD-клавиатуре. Не путате с одинарными кавычками ( ' ) !
    Белорусский язык
    Ў и ў
    xA1
    xA2
    Сербский язык
    Ђ и ђ
    Џ и џ
    Љ и љ
    Њ и њ
    Ћ и ћ
    x80
    x8F
    x8A
    x8C
    x8E
    x90
    x9F
    x9A
    x9C
    x9E
    Неизвестный язык
    Ќ и ќ
    Ѓ и ѓ
    x8D
    x81
    x9D
    x83

    Пример.
    Так будут выглядеть строки, если включить в них все выше описанные языки.
    # Capital letters
    $CAP_LETTERS = '\xC0-\xDF\xA8\xB2\xAF\xAA\xA5\x92\xA1\x80\x8F\x8A\x8C\x8E\x8D\x81';
    # Lower case letters
    $LOW_LETTERS = '\xE0-\xFF\xB8\xB3\xBF\xBA\xB4\x92\xA2\x90\x9F\x9A\x9C\x9E\x9D\x83';

    Примечание.
    Если Вы не знаете шестнадцатиричный код символа или буквы, но Вы можете его набрать в строке поиска Вашей страницы, посмотрите в адресную строку Броузера, броузер сам перекодирует этот символ в ANSII-код.
    Если Вас интересуют другие символы см. файл ANSII.txt, содержащий коды всех символов.


  3. После внесения этих изменений в конфигурационный файл, сайт нужно проиндексировать заново, чтобы скрипт мог опознать новые для него буквы.

    Примечание. Если текст содержащийся на Ваших страницах написан на русском и/или английском языках, Вам нет необходимости вносить выше описанные изменения в файл config.pl.