По умолчанию настройки
конфигурационного файла config.pl работают корректно
с английским и русским языками, т.е. проиндексированные страницы, содержащие
русский и/или английский язык, отображают результаты поиска - корректно.
В случае, если Вы захотите проиндексировать сайт, содержащий буквы других
языков, на отображаемой страницы Вы получите либо слово с пропущенными
буквами (т.е. без специфических букв этого языка), либо слово вообще
не будет определено правильно.
Поэтому в сложившейся ситуации Вам необходимо внести некоторые изменения
в файле config.pl.
Порядок действий
- Найдите строки содержащие:
#===================================================================
# Change below only if you need multilanguage support
# With default settings script will work with
# English, Russian (win1251 encoding) and most European languages
#===================================================================
# Capital letters
$CAP_LETTERS = '\xC0-\xDF\xA8';
# Lower case letters
$LOW_LETTERS = '\xE0-\xFF\xB8';
- Дополните их соответствующими буквами или символами используемыми
на Ваших страницах.
Значение $CAP_LETTERS - для прописных
букв, $LOW_LETTERS - для строчных.
Примечание. Первое значение в таблице - прописная
буква, второе (через пробел) - строчная буква.
Язык
|
Символ
|
ANSII-код
|
ПРОПИСНАЯ буква |
строчная буква |
Украинский
язык |
І и і
Ї и ї
Є и є
Ґ и ґ
’ |
xB2
xAF
xAA
xA5
x92 |
xB3
xBF
xBA
xB4
x92 |
Апостроф
( ’ ), набирается нажатием клавиш Alt + последовательно
0146 на NUMPAD-клавиатуре. Не путате с одинарными кавычками
( ' ) ! |
Белорусский язык |
Ў и ў |
xA1 |
xA2 |
Сербский язык |
Ђ и ђ
Џ и џ
Љ и љ
Њ и њ
Ћ и ћ |
x80
x8F
x8A
x8C
x8E |
x90
x9F
x9A
x9C
x9E |
Неизвестный язык |
Ќ и ќ
Ѓ и ѓ |
x8D
x81 |
x9D
x83 |
Пример.
Так будут выглядеть строки, если включить в них все выше описанные
языки.
# Capital letters
$CAP_LETTERS = '\xC0-\xDF\xA8\xB2\xAF\xAA\xA5\x92\xA1\x80\x8F\x8A\x8C\x8E\x8D\x81';
# Lower case letters
$LOW_LETTERS = '\xE0-\xFF\xB8\xB3\xBF\xBA\xB4\x92\xA2\x90\x9F\x9A\x9C\x9E\x9D\x83';
Примечание.
Если Вы не знаете шестнадцатиричный код символа или буквы, но Вы
можете его набрать в строке поиска Вашей страницы, посмотрите в
адресную строку Броузера, броузер сам перекодирует этот символ в
ANSII-код.
Если Вас интересуют другие символы см. файл ANSII.txt, содержащий
коды всех символов.
- После внесения этих изменений в конфигурационный файл, сайт нужно
проиндексировать заново, чтобы скрипт мог опознать новые для него
буквы.
Примечание. Если текст содержащийся на Ваших страницах
написан на русском и/или английском языках, Вам нет необходимости
вносить выше описанные изменения в файл config.pl.
|