Здравствуйте, гость Правила · Помощь

 
»  Немного статистики, по следам "цветной" СИ Подписаться | Сообщить другу | Версия для печати
      » 20/08/2009, 21:49,  blum 
Уважаемые коллеги!

Давайте попробуем изучить статистику сложности вопросов СИ на примере недавнего "цветного свояка".

Я не стал вписывать в таблицу наименования тем и постарался не вести речь о содержании конкретных вопросов - этот пакет, возможно, ещё кто-то поиграет.

В приведенных ниже таблицах используются следующие основные параметры.

ДОСТУПНОСТЬ ВОПРОСА = количество игроков, давших правильный ответ, минус половина количества игроков, давших неправильный ответ. Половинки округлялись вверх.

Поскольку игрался "лайт", то количество игроков, имевших возможность ответить, формально не менялось от вопроса к вопросу. Я, разумеется, понимаю, что в реальности это было не так, и что упомянутое количество неуклонно снижалось от раунда к раунду, но всё равно за этим не проследишь, а снявшиеся игроки в среднем промолчали бы. Учитывать при оценке доступности вопроса игроков, давших неправильный ответ, с половинным весом, мне кажется разумным компромиссом, ибо неправильные ответы нередко даются "от балды", из-за временного помрачения и т.п.



В клетках ПЕРВОЙ таблички - как раз эта величина.

В клетках ВТОРОЙ таблички - та же величина, умноженная на стоимость вопроса (без учета номера раунда). Естественно назвать её ВЗВЕШЕННАЯ ДОСТУПНОСТЬ ВОПРОСА.

Мне кажется разумным считать, что с помощью второй таблички неплохо оценивается общая доступность темы. В идеальной теме все числа в пяти клетках соответствующей строки второй таблички должны совпадать, если, конечно, считать, что обратная пропорциональность доступности вопроса его стоимости есть признак идеальной темы.

Наконец, в последних двух столбцах второй таблички - среднеквадратичное отклонение и относительное среднеквадратичное отклонение взвешенной доступности для каждой темы.

Несмотря на имевшие место косяки в некоторых вопросах (неточные формулировки и ранние отсылки ответов в общий чат), я использовал количества взявших-невзявших, имевшие место в живой игре. Единственное исключение сделано для вопроса за 12 из темы MEPKATOPа, который был дирижёром снят. Чтобы не искажать статистику, я поступил так. Средняя взвешенная доступность оставшихся вопросов темы MEPKATOPа составила 16, а средняя взвешенная доступность всех вопросов №4 - 25. Я счёл, что вопрос, который гипотетически мог бы играться вместо ошибочного, имел бы взвешенную доступность 20.



user posted image

Давайте немного присмотримся ко второй табличке.

Средняя взвешенная доступность вопроса составила 22.9. Видно, что в целом по всему пакету вопросы за 5 оказались ближе всего к идеалу. Недалеко от него ушли и вопросы за 3 и 4. Вопросы за 2 оказались слишком легкими, а вопросы за 1 - слишком трудными. На самом деле ничего удивительного в этом нет, ибо как раз в этом месте начисление стоимостей, принятое в СИ, хуже всего, как мне кажется, отвечает реальной жизни. Вряд ли всё таки количество отвечающих должно от вопроса "за 1" к вопросу "за 2" падать вдвое.

Темы второго раунда оказались несколько труднее тем первого и третьего раунда (средняя взвешенная доступность тем в порядке раундов 109.5 - 120.3 - 114.7). Наверное, это не очень хорошо, и второй и третий раунды следовало бы переставить местами. Хочу, однако, напомнить, что гораздо важнее сбалансированность тематики в каждом раунде по содержанию. Удалось ли нам её достичь - не знаю. Изменение же стоимости вопроса от раунда к раунду - вещь противоестественная, и применяется в СИ исключительно для поддержания накала борьбы.

Столбец ОСКВО определяет, насколько правильно были расставлены вопросы по стоимости (чем ниже ОСКВО, тем правильней). Темы этого пакета можно разбить на три категории: ОСКВО меньше 0.1 - leon28 (0.03), klenka (0.06), Mallmezon (0.07) и sno (0.10); ОСКВО от 0.1 до 0.2 - Karella (0.10), svinok (0.11), fjqtp (0.13), blum (0.14), Juliajulia (0.14), Gallex (0.17), MEPKATOP (0.18); ОСКВО свыше 0.2 - Marsed (0.20), stillfree (0.21), pyshka (0.22), Мадъяр1 (0.23), grizzly (0.26), Danila (0.27) и Кенга (0.27).

Глядя на табличку 2, можно наблюдать гробы и кнопки невооруженным глазом. В качестве оффтопа замечу, что лучшим вопросом был признан вопрос, имеющий самую большую по модулю отрицательную взвешенную доступность (Кенга, вопрос за 3), что явно свидетельствует (да простит меня Кенга) о склонности голосовавших к мазохизму. Карелла, если Вам не трудно, расскажите, сколько участников проголосовало за этот вопрос, и сколько - за вопросы-конкуренты.

В игре было несколько косяков, а именно - 4 штуки ( тот факт, что Карелла не зачла fjqtp синонимичный ответ на один из вопросов моей темы, не догадавшись проконсультироваться с присутствовавшими физиками, я всё же косяком не считаю). Вопрос за 4 от MEPKATOPа был, как я уже упоминал, снят из-за допущенной автором и пропущенной редакторами фактической ошибки, мешающей его брать. Тема от grizzly стоит особняком - она пострадала более всех, и поэтому вопросы этой темы не включены в приводимую ниже статистику "кнопок", ибо они превратились в "кнопки" исключительно из-за двух "гробов". Вопрос за 1 погиб из-за того, что я забыл передать дирижёру высказанную мне лично просьбу автора объявить перед розыгрышем её темы, что во всех ответах требуется ещё один цвет (жалко, что Карелла не догадалась этот вопрос снять) , а в вопросе за 5 ни автор, ни мы не заметили незначительную неточность формулировки, слегка провоцирующую игроков на неверные ответы. Наконец, формулировка вопроса за 4 от Juliajulia, действительно, сильно провоцировала игроков на альтернативный, хотя формально и неправильный ответ, и наверное, таковой следовало бы зачесть, но во время игры решение было принять трудно.

Итак, "кнопки". К их числу я отнес вопросы, взвешенная доступность которых составила 40% и более от суммарной взвешенной доступности вопросов темы.
Вот они: fjqtp-4 (42%) (редакторы выкинули просьбу назвать фамилию, убоявшись гроба, но получили взамен слишком лёгкий для наших любителей оперы вопрос), MEPKATOP - 2 (46%) (ругаться у нас все умеют), Gallex -5 (48%) (этот вопрос сочинила редакторская группа взамен одного из авторских, а стоимость 5 он получил по недоразумению), stillfree - 2 (49%) (большинство гамблерян, как известно, живут в избах), Marsed - 3 (50%) (говорил же я, что цветных поэтов раз, два и обчёлся), pyshka - 3 (на лёгкость этого литературного вопроса обиделся даже Rondo). Печальные рекорды, поставленные вопросами Мадъяр1 - 4 (60%), Danila - 5 (62%) и Кенга - 4 (64%) являются для меня, надо сказать, загадками. До сих пор не понимаю, откуда всё это знает столько народу.

В заключение, отмечу, что данных для статистики, конечно, маловато, однако какие-то выводы сделать можно. Пакет IMHO вышел не кривой и не косой - нормальный. Работать в редакторской группе мне лично было вполне комфортно (возможно, из-за большого опыта участия в разного рода заседаниях), и я не думаю, что качество редактирования ухудшается с ростом числа редакторов - напротив, улучшается, если, конечно, никто из редакторов не слишком озабочен тем, чтобы настоять на своём). Но вылизать пакет до полного отсутствия неточностей - задача, на мой взгляд, бессмысленная, ибо речь идет не о постройке самолёта, а о продукте одноразового использования, и две-три ошибки хоть и неприятны, но ничем особенным судьбе игры не грозят. А сил редакторская группа на доведение качественности пакета с 96% до 100% потратит столько же, сколько на обеспечение первых 96%.

Разумеется, редакторы должны с уважением относиться к труду авторов, но и авторам следует доверять редакторам. Проще всего выкинуть вопрос, если редакторы об этом просят, и заменить на другой. В качестве примера могу привести grizzly, которая заменила по нашей просьбе целую тему (очень красивую, но, по нашей оценке, гробовую для игроков Гамблера), и не её вина в том, что в новой теме один вопрос погубила техническая ошибка, а на другой (за 5) игроки посдавали формально похожие на правильные тривиальные ответы, явно не соответствующие ситуации в вопросе).

Ждём очередной коллективной игры. Надеюсь, что её отредактируют grizzly и MEPKATOP. Анонс последует в ближайшее время.

Это сообщение отредактировал blum - 21/08/2009, 14:07
      » 21/08/2009, 15:04,  Мадьяр1 
blum ("20/".$m["авг"]."/2009," 21:49)
Печальные рекорды, поставленные вопросами Мадъяр1 - 4 (60%), Danila - 5 (62%) и Кенга - 4 (64%) являются для меня, надо сказать, загадками. До сих пор не понимаю, откуда всё это знает столько народу.


А вот это как раз тот вопрос, который был добавлен в мой пакет Редакторами )))

--------------------
user posted image
...they're everywhere...
...they walk around like everyone else...
...they don't even know that they're dumb...
 
« Предыдущая тема | Перечень тем | Следующая тема »
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)
0 Пользователей: