Биология - Netflix Prize - Данные

07 мая 2011


Оглавление:
1. Netflix Prize
2. Данные
3. Призы
4. История и результаты



Все участники могут скачать следующие 4 файла:

  • Тренировочные данные содержат более 100 млн оценок, которые более 480 тыс. клиентов поставили 17.770 фильмам. Каждая оценка представляет собой квадруплет <номер клиента, номер фильма, дата оценки, оценка>. Номера клиентов и фильмов — целые числа, оценка — целое число от 1 до 5. Таким образом, в среднем каждый клиент поставил около 200 оценок, а каждый фильм получил около 5000. Однако количество оценок сильно варьирует: так, некоторые фильмы получили всего 3 оценки,, а один клиент оценил более 17 тыс. фильмов.
  • Квалификационные данные содержат 2,8 млн триплетов <пользователь, фильм, дата оценки>. Оценки известны только жюри и будут опубликованы по окончании соревнования.
  • Названия и годы выхода в прокат всех 17.770 фильмов.
  • Фрагмент тренировочной базы данных, распределённый так же, как квалификационные данные. Этот фрагмент может использоваться, например, для оценки алгоритмов до посылки их на сайт.

Никакой информации о клиентах в базе данных нет.

Для защиты конфиденциальности клиентов, «некоторые данные из тренировочного и квалификационного намеренно искажены одним или более из следующих способов: стирание оценок; вставка альтернативных оценок и дат; модификация дат».

Каждый участник должен отправить файл с предсказаниями оценок из квалификационного набора данных. Предсказания могут быть и вещественными. В ответ сообщается среднеквадратичное отклонение предсказаний, округлённое до 4-го знака после запятой. Список СКО лучших участников также вывешивается на сайте. Сами предсказания держатся в секрете.

Участник может отправлять предсказания не чаще раза в день. Учитывается лучший набор предсказаний каждого участника.

Для того чтобы участник не мог использовать СКО для угадывания оценок, квалификационный набор данных разделён на двое. Участникам сообщаются результаты одной из половинок, называемой quiz set, но для получения приза учитываются результаты другой половинки — test set. Участники не знают, какая из записей к какой половинке относится.

Были споры по поводу выбора метрики. Действительно ли уменьшение ошибки на 10 % поможет пользователям? По мнению одного из участников соревнования, улучшение ошибки даже на 0,01 существенно изменит список 10 рекомендованных фильмов..



Просмотров: 10504


<<< Google Lunar X PRIZE
ReCAPTCHA >>>