Romip-base project

Инструментарий для проведения экспериментов по ad hoc дорожкам поиска семинара РОМИП

Дата последнего обновления:
22.08.2007 15:00

Автор:
студент механико-математического факультета
МГУ им. Ломоносова
Красильников Павел

Связанная публикация:
«Воспроизведение лучших результатов ad hoc поиска семинара РОМИП» [ссылка пока не доступна] в рамках научной стипендии компании Яндекс «Интернет-математика 2007»

Полное название публикации: «Воспроизведение лучших результатов ad hoc поиска семинара РОМИП. Публикация деталей алгоритмов и результатов исследования влияния различных параметров на качество поиска. Публикация исходных кодов»

По всем вопросам обращайтесь:
P[dot]Krasilnikov[at]gmail[dot]com


Аннотация

Данный ресурс содержит необходимый инструментарий, исходные коды, а также инструкции, созданные в рамках научной стипендии компании Яндекс "Интернет-математика 2007". Проводилась работа по воспроизведению лучших результатов ad hoc дорожек поиска семинара РОМИП.

Данный сайт призван помочь желающим попробовать себя в ad hoc поиске при помощи исходных коллекций и методик семинара РОМИП, а также программного обеспечения, которое можно скачать здесь.

Важно: На данном ресурсе вы не найдёте тестовых коллекций, используемых в РОМИП и необходимых, для того, чтобы запустить доступное здесь программное обеспечение. Для того чтобы получить тестовые коллекции, необходимо обратиться к организаторам семинара РОМИП и получить разрешение на доступ к коллекциям. После этого, коллекции, подготовленные к загрузке в БД (используется БД MySQL v 5.0) можно получить (в виде DVD диска) обратившись по адресу, указанному вверху, или обратившись в Лабораторию Информационных Ресурсов НИВЦ МГУ.

Аннотация к статье

[приводиться как есть]

Данная работа направлена на более детальное изучение алгоритмов поиска документов, получивших лучшие результаты на семинаре РОМИП в 2004-2006 гг. для задач ad hoc поиска по нормативных документов и по коллекции narod.ru. Цель исследования состояла в том, чтобы путем варьирования параметров небольшого числа основных факторов постараться воспроизвести результаты лучших (но недостаточно задокументированных алгоритмов). Основные факторы, которые были исследованы в настоящей работе, включают, помимо классического TF*IDF веса, вес по парам слов и по кворуму (мере частичного соответствия запроса документу).

Навигация по сайту

  1. О проекте
  2. Инструкции
  3. Скачать
Hosted by uCoz