Уважаемые коллеги!
Давайте попробуем изучить статистику сложности вопросов СИ на примере недавнего "цветного свояка".
Я не стал вписывать в таблицу наименования тем и постарался не вести речь о содержании конкретных вопросов - этот пакет, возможно, ещё кто-то поиграет.
В приведенных ниже таблицах используются следующие основные параметры.
ДОСТУПНОСТЬ ВОПРОСА = количество игроков, давших правильный ответ, минус половина количества игроков, давших неправильный ответ. Половинки округлялись вверх.
Поскольку игрался "лайт", то количество игроков, имевших возможность ответить, формально не менялось от вопроса к вопросу. Я, разумеется, понимаю, что в реальности это было не так, и что упомянутое количество неуклонно снижалось от раунда к раунду, но всё равно за этим не проследишь, а снявшиеся игроки в среднем промолчали бы. Учитывать при оценке доступности вопроса игроков, давших неправильный ответ, с половинным весом, мне кажется разумным компромиссом, ибо неправильные ответы нередко даются "от балды", из-за временного помрачения и т.п.
В клетках ПЕРВОЙ таблички - как раз эта величина.
В клетках ВТОРОЙ таблички - та же величина, умноженная на стоимость вопроса (без учета номера раунда). Естественно назвать её ВЗВЕШЕННАЯ ДОСТУПНОСТЬ ВОПРОСА.
Мне кажется разумным считать, что с помощью второй таблички неплохо оценивается общая доступность темы. В идеальной теме все числа в пяти клетках соответствующей строки второй таблички должны совпадать, если, конечно, считать, что обратная пропорциональность доступности вопроса его стоимости есть признак идеальной темы.
Наконец, в последних двух столбцах второй таблички - среднеквадратичное отклонение и относительное среднеквадратичное отклонение взвешенной доступности для каждой темы.
Несмотря на имевшие место косяки в некоторых вопросах (неточные формулировки и ранние отсылки ответов в общий чат), я использовал количества взявших-невзявших, имевшие место в живой игре. Единственное исключение сделано для вопроса за 12 из темы MEPKATOPа, который был дирижёром снят. Чтобы не искажать статистику, я поступил так. Средняя взвешенная доступность оставшихся вопросов темы MEPKATOPа составила 16, а средняя взвешенная доступность всех вопросов №4 - 25. Я счёл, что вопрос, который гипотетически мог бы играться вместо ошибочного, имел бы взвешенную доступность 20.

Давайте немного присмотримся ко второй табличке.
Средняя взвешенная доступность вопроса составила 22.9. Видно, что в целом по всему пакету вопросы за 5 оказались ближе всего к идеалу. Недалеко от него ушли и вопросы за 3 и 4. Вопросы за 2 оказались слишком легкими, а вопросы за 1 - слишком трудными. На самом деле ничего удивительного в этом нет, ибо как раз в этом месте начисление стоимостей, принятое в СИ, хуже всего, как мне кажется, отвечает реальной жизни. Вряд ли всё таки количество отвечающих должно от вопроса "за 1" к вопросу "за 2" падать вдвое.
Темы второго раунда оказались несколько труднее тем первого и третьего раунда (средняя взвешенная доступность тем в порядке раундов 109.5 - 120.3 - 114.7). Наверное, это не очень хорошо, и второй и третий раунды следовало бы переставить местами. Хочу, однако, напомнить, что гораздо важнее сбалансированность тематики в каждом раунде по содержанию. Удалось ли нам её достичь - не знаю. Изменение же стоимости вопроса от раунда к раунду - вещь противоестественная, и применяется в СИ исключительно для поддержания накала борьбы.
Столбец ОСКВО определяет, насколько правильно были расставлены вопросы по стоимости (чем ниже ОСКВО, тем правильней). Темы этого пакета можно разбить на три категории: ОСКВО меньше 0.1 - leon28 (0.03), klenka (0.06), Mallmezon (0.07) и sno (0.10); ОСКВО от 0.1 до 0.2 - Karella (0.10), svinok (0.11), fjqtp (0.13), blum (0.14), Juliajulia (0.14), Gallex (0.17), MEPKATOP (0.18); ОСКВО свыше 0.2 - Marsed (0.20), stillfree (0.21), pyshka (0.22), Мадъяр1 (0.23), grizzly (0.26), Danila (0.27) и Кенга (0.27).
Глядя на табличку 2, можно наблюдать гробы и кнопки невооруженным глазом. В качестве оффтопа замечу, что лучшим вопросом был признан вопрос, имеющий самую большую по модулю отрицательную взвешенную доступность (Кенга, вопрос за 3), что явно свидетельствует (да простит меня Кенга) о склонности голосовавших к мазохизму. Карелла, если Вам не трудно, расскажите, сколько участников проголосовало за этот вопрос, и сколько - за вопросы-конкуренты.
В игре было несколько косяков, а именно - 4 штуки ( тот факт, что Карелла не зачла fjqtp синонимичный ответ на один из вопросов моей темы, не догадавшись проконсультироваться с присутствовавшими физиками, я всё же косяком не считаю). Вопрос за 4 от MEPKATOPа был, как я уже упоминал, снят из-за допущенной автором и пропущенной редакторами фактической ошибки, мешающей его брать. Тема от grizzly стоит особняком - она пострадала более всех, и поэтому вопросы этой темы не включены в приводимую ниже статистику "кнопок", ибо они превратились в "кнопки" исключительно из-за двух "гробов". Вопрос за 1 погиб из-за того, что я забыл передать дирижёру высказанную мне лично просьбу автора объявить перед розыгрышем её темы, что во всех ответах требуется ещё один цвет (жалко, что Карелла не догадалась этот вопрос снять) , а в вопросе за 5 ни автор, ни мы не заметили незначительную неточность формулировки, слегка провоцирующую игроков на неверные ответы. Наконец, формулировка вопроса за 4 от Juliajulia, действительно, сильно провоцировала игроков на альтернативный, хотя формально и неправильный ответ, и наверное, таковой следовало бы зачесть, но во время игры решение было принять трудно.
Итак, "кнопки". К их числу я отнес вопросы, взвешенная доступность которых составила 40% и более от суммарной взвешенной доступности вопросов темы.
Вот они: fjqtp-4 (42%) (редакторы выкинули просьбу назвать фамилию, убоявшись гроба, но получили взамен слишком лёгкий для наших любителей оперы вопрос), MEPKATOP - 2 (46%) (ругаться у нас все умеют), Gallex -5 (48%) (этот вопрос сочинила редакторская группа взамен одного из авторских, а стоимость 5 он получил по недоразумению), stillfree - 2 (49%) (большинство гамблерян, как известно, живут в избах), Marsed - 3 (50%) (говорил же я, что цветных поэтов раз, два и обчёлся), pyshka - 3 (на лёгкость этого литературного вопроса обиделся даже Rondo). Печальные рекорды, поставленные вопросами Мадъяр1 - 4 (60%), Danila - 5 (62%) и Кенга - 4 (64%) являются для меня, надо сказать, загадками. До сих пор не понимаю, откуда всё это знает столько народу.
В заключение, отмечу, что данных для статистики, конечно, маловато, однако какие-то выводы сделать можно. Пакет IMHO вышел не кривой и не косой - нормальный. Работать в редакторской группе мне лично было вполне комфортно (возможно, из-за большого опыта участия в разного рода заседаниях), и я не думаю, что качество редактирования ухудшается с ростом числа редакторов - напротив, улучшается, если, конечно, никто из редакторов не слишком озабочен тем, чтобы настоять на своём). Но вылизать пакет до полного отсутствия неточностей - задача, на мой взгляд, бессмысленная, ибо речь идет не о постройке самолёта, а о продукте одноразового использования, и две-три ошибки хоть и неприятны, но ничем особенным судьбе игры не грозят. А сил редакторская группа на доведение качественности пакета с 96% до 100% потратит столько же, сколько на обеспечение первых 96%.
Разумеется, редакторы должны с уважением относиться к труду авторов, но и авторам следует доверять редакторам. Проще всего выкинуть вопрос, если редакторы об этом просят, и заменить на другой. В качестве примера могу привести grizzly, которая заменила по нашей просьбе целую тему (очень красивую, но, по нашей оценке, гробовую для игроков Гамблера), и не её вина в том, что в новой теме один вопрос погубила техническая ошибка, а на другой (за 5) игроки посдавали формально похожие на правильные тривиальные ответы, явно не соответствующие ситуации в вопросе).
Ждём очередной коллективной игры. Надеюсь, что её отредактируют grizzly и MEPKATOP. Анонс последует в ближайшее время.
Это сообщение отредактировал blum - 21/08/2009, 14:07