|
25.06.2004 15:44 |
| |
Поиск@Mail.ru начал борьбу с пользовательскими опечатками |
 |
22 июня компания @Mail.ru объявила о внедрении в системе Поиск@Mail.ru сервиса исправления опечаток и ошибок в русских словах.
Теперь, пользователям, невнимательно набравшим текст запроса или сделавшим орфографическую ошибку, будет выводиться подсказка, предлагающая поискать то же самое слово, но в его правильном написании.
Модуль исправления опечаток работает следующим образом: изначально запрос обрабатывается поисковым механизмом и, если было найдено слишком маленькое количество результатов, это является для программы сигналом к проверке слов запроса в словаре. Если в словаре найдены слова, немного отличающиеся от заданного, то над результатами поиска выводится подсказка. Для выбора наиболее релевантных подсказок в системе также анализируется частота употребления тех или иных слов в различных выражениях и словосочетаниях.
Изначально, при запуске системы за основу был взят открытый словарь известного лингвиста профессора А.А. Зализняка. Ежедневно база данных слов и словоформ расширяется и пополняется различными компьютерными, профессиональными и сленговыми терминами и выражениями, которые отбираются профессиональными лингвистами в процессе анализа запросов пользователей.
Кроме орфографических ошибок в словах, система умеет распознавать следующие досадные недоразумения:
- два слипшихся между собой слова;
- вставленный в середину слова лишний пробел;
- вставка лишней буквы;
- отсутствие нужной буквы;
- неправильная кодировка;
- неправильный язык ввода текста.
Система может справиться и с комбинацией нескольких ошибок - например, если вы при вводе запроса забыли переключиться с английской раскладки клавиатуры на русскую, да еще допустили ошибку в слове.
Механизм исправления опечаток и ошибок в русских словах реализован в двух российских поисковых машинах помимо Поиск@Mail.ru, однако в более простом варианте, в частности, они не умеют фиксировать комбинацию двух ошибок, не исправляют запросы, пришедшие в неправильной кодировке и не умеют удалять из слов лишние пробелы.
|
 |
|