Данный ресурс содержит необходимый инструментарий, исходные коды, а также инструкции, созданные в рамках научной стипендии компании Яндекс "Интернет-математика 2007". Проводилась работа по воспроизведению лучших результатов ad hoc дорожек поиска семинара РОМИП.
Данный сайт призван помочь желающим попробовать себя в ad hoc поиске при помощи исходных коллекций и методик семинара РОМИП, а также программного обеспечения, которое можно скачать здесь.
Важно: На данном ресурсе вы не найдёте тестовых коллекций, используемых в РОМИП и необходимых, для того, чтобы запустить доступное здесь программное обеспечение. Для того чтобы получить тестовые коллекции, необходимо обратиться к организаторам семинара РОМИП и получить разрешение на доступ к коллекциям. После этого, коллекции, подготовленные к загрузке в БД (используется БД MySQL v 5.0) можно получить (в виде DVD диска) обратившись по адресу, указанному вверху, или обратившись в Лабораторию Информационных Ресурсов НИВЦ МГУ.
[приводиться как есть]
Данная работа направлена на более детальное изучение алгоритмов поиска документов, получивших лучшие результаты на семинаре РОМИП в 2004-2006 гг. для задач ad hoc поиска по нормативных документов и по коллекции narod.ru. Цель исследования состояла в том, чтобы путем варьирования параметров небольшого числа основных факторов постараться воспроизвести результаты лучших (но недостаточно задокументированных алгоритмов). Основные факторы, которые были исследованы в настоящей работе, включают, помимо классического TF*IDF веса, вес по парам слов и по кворуму (мере частичного соответствия запроса документу).