Ошибка в программе тестирования, максимальное количество человек уже участвует
Обновлено: 21.11.2024
Один из самых частых вопросов, которые мне задают люди, проводящие опросы в области международного развития, — "Насколько большим должен быть размер моей выборки?". Несмотря на то, что доступно множество калькуляторов размера выборки и статистических руководств, тем, кто никогда не занимался статистикой в университете (или забыл все это), может показаться, что они пугают или сложны в использовании.
Если это похоже на вас, продолжайте читать. В этом руководстве объясняется, как выбрать размер выборки для базового обследования без использования сложных формул. Чтобы получить более простые эмпирические правила относительно размеров выборки для других ситуаций, я настоятельно рекомендую «Размер выборки: приблизительное руководство» Ронана Конроя и «Справочник по исследованиям в области опросов» Памелы Алрек и Роберта Сеттла.
Эта статья представляет собой краткое введение в тему для более глубокого изучения темы, рассмотрите возможность зачисления на бесплатный онлайн-курс, предлагаемый Калифорнийским университетом в Дэвисе.
Этот совет предназначен для:
- Основные опросы, такие как формы обратной связи, оценка потребностей, опросы общественного мнения и т. д., проводимые в рамках программы.
- Опросы со случайной выборкой.
Этот совет НЕ для:
- Исследования, проводимые университетами, исследовательскими фирмами и т. д.
- Сложные или очень крупные опросы, например общенациональные опросы домохозяйств.
- Опросы для сравнения группы вмешательства и контрольной группы или до и после программы (для этой ситуации Размер выборки: приблизительное руководство).
- Опросы, в которых используется неслучайная выборка или специальный тип выборки, такой как кластерная или стратифицированная выборка (для этих ситуаций см. Размер выборки: приблизительное руководство и рекомендации ООН по обследованиям домохозяйств).
- Опросы, в которых вы планируете использовать навороченную статистику для анализа результатов, например многомерный анализ (если вы умеете делать такую навороченную статистику, значит, вы уже знаете, как выбирать размер выборки).
Минимальный размер выборки – 100
Большинство статистиков сходятся во мнении, что минимальный размер выборки для получения сколько-нибудь значимого результата – 100 человек. Если ваша совокупность меньше 100 человек, вам действительно нужно опросить их всех.
Хороший максимальный размер выборки обычно составляет 10%, если он не превышает 1000
Хороший максимальный размер выборки обычно составляет около 10 % населения, если он не превышает 1000. Например, в популяции 5000 10 % будут 500. В популяции 200 000 10 % будут быть 20 000. Это превышает 1000, поэтому в этом случае максимальное значение будет 1000.
Даже при населении в 200 000 человек выборка из 1000 человек обычно дает довольно точные результаты. Выборка из более чем 1000 человек не сильно улучшит точность, учитывая дополнительные затраты времени и денег.
Выберите число между минимумом и максимумом в зависимости от ситуации
Предположим, вы хотите опросить учащихся школы, в которой учатся 6000 учеников. Минимальная выборка — 100 человек. Это даст вам приблизительное, но полезное представление об их мнении. Максимальная выборка — 600 человек, что даст вам достаточно точное представление об их мнении.
Выберите число ближе к минимуму, если:
- У вас мало времени и денег.
- Вам нужна только приблизительная оценка результатов.
- Вы не планируете делить выборку на разные группы во время анализа или планируете использовать только несколько больших подгрупп (например, мужчин/женщин).
- Вы думаете, что большинство людей дадут похожие ответы.
- Решения, которые будут приняты на основе результатов, не будут иметь существенных последствий.
Выберите число ближе к максимальному, если:
- У вас есть на это время и деньги.
- Очень важно получить точные результаты.
- Вы планируете разделить выборку на множество разных групп во время анализа (например, разные возрастные группы, социально-экономические уровни и т. д.).
- Вы думаете, что люди могут давать очень разные ответы.
- Решения, которые будут приняты по результатам опроса, важны, дороги или имеют серьезные последствия.
На практике большинство людей обычно хотят, чтобы результаты были максимально точными, поэтому ограничивающим фактором обычно являются время и деньги. В приведенном выше примере, если бы у вас было время и деньги, чтобы опросить всех 600 студентов, это дало бы вам довольно точный результат. Если у вас недостаточно времени или денег, просто выберите наибольшее число, которым вы можете управлять, если оно больше 100.
Если вы хотите узнать больше о сборе данных опросов, пройдите бесплатный курс, предлагаемый Мичиганским и Мэрилендским университетами. Зарегистрируйтесь здесь.
Если вы хотите быть более научным, используйте эту таблицу
Несмотря на то, что предыдущие эмпирические правила вполне приемлемы для большинства простых опросов, иногда вам нужно звучать более "научно", чтобы вас воспринимали всерьез. В этом случае вы можете использовать следующую таблицу. Просто выберите столбец, который наиболее точно соответствует размеру вашей совокупности. Затем выберите строку, которая соответствует уровню ошибки, которую вы готовы допустить в результатах.
В этой таблице вы увидите, что наименьшая выборка по-прежнему составляет около 100, а самая большая выборка (для совокупности более 5000 человек) по-прежнему составляет около 1000. Применяются те же общие принципы, что и раньше: если вы планируете разделить результаты на множество подгрупп или решения, которые необходимо принять, очень важны, вам следует выбрать более крупную выборку.
Примечание. Эту таблицу можно использовать только для базовых опросов, чтобы определить, какая часть населения имеет определенную характеристику (например, какая часть фермеров использует удобрения, какая часть женщин верит в мифы о семье). планирование и др.). Его нельзя использовать, если вы пытаетесь сравнить две группы (например, контроль и вмешательство) или два момента времени (например, базовые и конечные исследования). См. Размер выборки: приблизительное руководство по другим таблицам, которые можно использовать в этих случаях.
Расслабьтесь и перестаньте беспокоиться о формулах
Среди статистиков есть маленький грязный секрет, что формулы размера выборки часто требуют, чтобы у вас была информация заранее, которой у вас обычно нет. Например, обычно вам нужно знать (в числовом выражении), насколько ответы в опросе могут различаться у разных людей (если бы вы знали это заранее, вы бы не проводили опрос!).
Поэтому, несмотря на то, что теоретически можно рассчитать размер выборки с помощью формулы, во многих случаях эксперты все же полагаются на эмпирические правила, а также на здравый смысл и прагматизм. Это означает, что вам не следует слишком беспокоиться, если вы не можете использовать сложную математику для выбора размера выборки — вы в хорошей компании.
Вывод. Тщательно продуманные юзабилити-тесты — пустая трата ресурсов. Наилучшие результаты достигаются при тестировании не более 5 пользователей и проведении как можно большего количества небольших тестов.
Якоб Нильсен
2000-03-18 18 марта 2000 г.
Темы:
Поделиться этой статьей:
Некоторые люди думают, что юзабилити — это очень дорого и сложно, и что пользовательские тесты должны быть зарезервированы для редкого проекта веб-дизайна с огромным бюджетом и щедрым графиком. Не правда. Тщательно продуманные юзабилити-тесты — пустая трата ресурсов. Наилучшие результаты достигаются при тестировании не более 5 пользователей и проведении как можно большего количества небольших тестов.
В предыдущем исследовании мы с Томом Ландауэром показали, что количество проблем с удобством использования, обнаруженных в тесте удобства использования с n пользователями, составляет:
где N — общее количество проблем с удобством использования в проекте, а L — доля проблем с удобством использования, обнаруженных при тестировании одного пользователя. Типичное значение L составляет 31 %, усредненное по большому количеству изученных нами проектов. Построение кривой для L =31% дает следующий результат:
Самая поразительная истина кривой заключается в том, что ни один пользователь не дает никакой информации.
Как только вы соберете данные от одного тестового пользователя, ваше понимание резко возрастет, и вы уже узнаете почти треть всего, что нужно знать об удобстве использования дизайна. Разница между нулем и даже небольшим количеством данных поразительна.
Когда вы протестируете второго пользователя, вы обнаружите, что этот человек делает некоторые из тех же действий, что и первый пользователь, поэтому то, что вы узнаете, частично совпадает. Люди точно разные, поэтому тоже будет что-то новое, что делает второй пользователь, чего вы не наблюдали у первого пользователя. Таким образом, второй пользователь добавляет некоторую новую информацию, но не так много, как первый пользователь.
Третий пользователь будет делать многие вещи, которые вы уже наблюдали у первого пользователя или у второго пользователя, и даже некоторые вещи, которые вы уже видели дважды. Плюс, конечно, третий пользователь будет генерировать небольшой объем новых данных, пусть и не такой большой, как первый и второй пользователи.
По мере того, как вы добавляете все больше и больше пользователей, вы узнаете все меньше и меньше, потому что будете видеть одни и те же вещи снова и снова. Нет никакой реальной необходимости наблюдать за одним и тем же несколько раз, и вы будете очень мотивированы вернуться к чертежной доске и изменить дизайн сайта, чтобы устранить проблемы с удобством использования.
После пятого пользователя вы тратите время впустую, постоянно наблюдая одни и те же результаты, но не узнавая много нового.
Итеративный дизайн
Кривая ясно показывает, что вам нужно протестировать не менее 15 пользователей, чтобы обнаружить все проблемы с удобством использования в дизайне. Так почему же я рекомендую проводить тестирование на гораздо меньшем количестве пользователей?
Основная причина в том, что лучше распределить бюджет пользовательского тестирования на множество небольших тестов, чем тратить все на одно подробное исследование. Допустим, у вас есть средства, чтобы привлечь 15 клиентов-представителей и попросить их протестировать ваш дизайн. Здорово. Потратьте этот бюджет на 3 исследования с 5 пользователями в каждом!
Вы хотите провести несколько тестов, потому что настоящая цель проектирования удобства использования – улучшить дизайн, а не просто задокументировать его недостатки. После того, как первое исследование с пятью участниками выявило 85 % проблем с удобством использования, вы захотите исправить эти проблемы в редизайне.
После создания нового дизайна вам нужно снова протестировать его. Несмотря на то, что я сказал, что редизайн должен «исправить» проблемы, обнаруженные в первом исследовании, правда в том, что вы думаете, что новый дизайн решает проблемы. Но поскольку никто не может разработать идеальный пользовательский интерфейс, нет никакой гарантии, что новый дизайн действительно решит проблемы. Второй тест покажет, сработали ли исправления или нет. Кроме того, при внедрении нового дизайна всегда есть риск появления новой проблемы с удобством использования, даже если старая проблема была исправлена.
Кроме того, второе исследование с пятью пользователями обнаружит большинство из оставшихся 15 % первоначальных проблем с удобством использования, которые не были обнаружены в первом раунде тестирования. (Все равно останется 2% первоначальных проблем — им придется подождать, пока не будет выявлено третье исследование.)
Наконец, второе исследование позволит глубже изучить удобство использования базовой структуры сайта, оценив такие аспекты, как информационная архитектура, поток задач и соответствие потребностям пользователей. Эти важные вопросы часто упускаются из виду в первоначальных исследованиях, когда пользователи сталкиваются с глупыми поверхностными проблемами юзабилити, которые мешают им по-настоящему изучить сайт.
Поэтому второе исследование послужит не только гарантией качества результатов первого исследования, но и поможет получить более глубокое представление. Второе исследование всегда приводит к новому (но меньшему) списку проблем юзабилити, которые нужно исправить при редизайне. То же самое относится и к этому редизайну: не все исправления будут работать; некоторые более глубокие проблемы будут обнаружены после очистки интерфейса. Таким образом, необходимо и третье исследование.
Конечный пользовательский опыт улучшается гораздо больше, если провести 3 исследования с участием 5 пользователей в каждом, а не провести одно масштабное исследование с 15 пользователями.
Почему бы не протестировать с одним пользователем?
Вы можете подумать, что 15 исследований с одним пользователем даже лучше, чем 3 исследования с 5 пользователями. Кривая действительно показывает, что мы узнаем гораздо больше от первого пользователя, чем от любых последующих пользователей, так зачем продолжать? Две причины:
- Всегда существует риск быть введенным в заблуждение ложным поведением одного человека, который может совершить определенные действия случайно или нерепрезентативным образом. Даже трех пользователей достаточно, чтобы получить представление о разнообразии поведения пользователей и понять, что уникально, а что можно обобщить.
- Анализ затрат и результатов пользовательского тестирования дает оптимальное соотношение между 3 или 5 пользователями, в зависимости от стиля тестирования. Всегда существуют фиксированные первоначальные затраты, связанные с планированием и проведением исследования: лучше амортизировать эти начальные затраты по результатам, полученным от нескольких пользователей.
Когда тестировать больше пользователей
Вам необходимо протестировать дополнительных пользователей, если на веб-сайте есть несколько сильно различающихся групп пользователей. Эта формула применима только к сопоставимым пользователям, которые будут использовать сайт примерно одинаково.
Если, например, у вас есть сайт, которым будут пользоваться и дети, и родители, то две группы пользователей будут иметь достаточно разное поведение, и возникает необходимость протестировать их на людях из обеих групп. То же самое можно сказать и о системе, предназначенной для связи агентов по закупкам с торговым персоналом.
Даже если группы пользователей очень разные, между наблюдениями двух групп все равно будет много общего. В конце концов, все пользователи — люди. Кроме того, многие проблемы с удобством использования связаны с тем, как люди взаимодействуют с Интернетом, и с влиянием других сайтов на поведение пользователей.
При тестировании нескольких групп разрозненных пользователей вам не нужно включать столько участников каждой группы, как в одном тесте одной группы пользователей. Перекрытие между наблюдениями обеспечит лучший результат при тестировании меньшего числа людей в каждой группе. Я рекомендую:
- 3–4 пользователя из каждой категории при тестировании двух групп пользователей.
- 3 пользователя из каждой категории при тестировании трех или более групп пользователей (всегда требуется как минимум 3 пользователя, чтобы убедиться, что вы охватили разнообразие поведения в группе)
Ссылка
Нильсен, Якоб, и Ландауэр, Томас К.: «Математическая модель выявления проблем удобства использования», Материалы конференции ACM INTERCHI'93 (Амстердам, Нидерланды, 24–29 апреля 1993 г.), стр. 206–213.
Дополнительные статьи
- Новый анализ проблемы, обсуждаемой в этой статье: сколько тестовых пользователей в исследовании удобства использования? : протестировать 20 пользователей : протестировать 15 пользователей
Об авторе
Якоб Нильсен, доктор философии, является адвокатом пользователей и руководителем Nielsen Norman Group, которую он основал вместе с доктором Дональдом А. Норманом (бывшим вице-президентом по исследованиям в Apple Computer). Доктор Нильсен основал движение «проектирование юзабилити со скидкой» для быстрого и дешевого улучшения пользовательских интерфейсов и изобрел несколько методов юзабилити, включая эвристическую оценку. Он является обладателем 79 патентов США, в основном касающихся способов упрощения использования Интернета.
Подпишитесь на нашу электронную рассылку Alertbox:
Последние статьи об удобстве использования интерфейсов, дизайне веб-сайтов и исследованиях UX от Nielsen Norman Group.
Являетесь ли вы глобальной корпорацией, которой необходимо поддерживать непрерывность бизнеса, местным государственным органом, работающим над поддержанием функционирования вашего сообщества, школьным учителем, обучающим учащихся удаленно, или другом, который хочет устроить счастливый час, чтобы вызвать радость во время общения. дистанцируясь, вы все справляетесь с уникальными проблемами, вызванными этим глобальным кризисом в области здравоохранения. В это время изоляции мы в Zoom считаем невероятной честью быть в состоянии помочь вам оставаться на связи.
Мы также чувствуем огромную ответственность. Использование Zoom резко возросло за одну ночь — намного превзойдя то, что мы ожидали, когда впервые объявили о своем желании помочь в конце февраля. Это включает в себя более 90 000 школ в 20 странах, которые воспользовались нашим предложением помочь детям продолжить свое образование дистанционно. Чтобы представить этот рост в контексте, по состоянию на конец декабря прошлого года максимальное количество участников ежедневных собраний, как бесплатных, так и платных, проводимых в Zoom, составляло около 10 миллионов. В марте этого года мы достигли более 200 миллионов участников ежедневных собраний, как бесплатных, так и платных. Мы круглосуточно работаем над тем, чтобы все наши пользователи — новые и старые, крупные и мелкие — могли оставаться на связи и оставаться в рабочем состоянии.
В течение последних нескольких недель поддержка этого притока пользователей была огромной задачей и нашей единственной задачей. Мы стремились предоставить вам бесперебойное обслуживание и такой же удобный интерфейс, который сделал Zoom предпочтительной платформой для видеоконференций для предприятий по всему миру, а также обеспечив безопасность платформы, конфиденциальность и безопасность. Однако мы признаем, что не оправдали ожиданий сообщества и наших собственных требований в отношении конфиденциальности и безопасности. Я глубоко сожалею об этом и хочу поделиться тем, что мы делаем по этому поводу.
Во-первых, немного предыстории: наша платформа была создана в первую очередь для корпоративных клиентов — крупных учреждений с полной ИТ-поддержкой. Они варьируются от крупнейших мировых компаний, предоставляющих финансовые услуги, до ведущих поставщиков телекоммуникационных услуг, государственных учреждений, университетов, организаций здравоохранения и практик телемедицины. Тысячи предприятий по всему миру провели тщательную проверку безопасности наших пользователей, сети и уровней центров обработки данных и с уверенностью выбрали Zoom для полного развертывания.
Однако при разработке продукта мы не предвидели, что через несколько недель каждый человек в мире вдруг начнет работать, учиться и общаться из дома. Теперь у нас есть гораздо более широкий круг пользователей, которые используют наш продукт множеством неожиданных способов, ставя перед нами задачи, которых мы не ожидали, когда создавалась платформа.
Эти новые варианты использования, в основном потребительские, помогли нам выявить непредвиденные проблемы с нашей платформой. Преданные журналисты и исследователи в области безопасности также помогли идентифицировать ранее существовавшие. Мы ценим внимание и вопросы, которые мы получаем — о том, как работает сервис, о нашей инфраструктуре и возможностях, а также о наших политиках конфиденциальности и безопасности. Это вопросы, которые сделают Zoom лучше как для компании, так и для всех ее пользователей.
Мы относимся к ним очень серьезно. Мы изучаем каждую из них и решаем их как можно быстрее. Мы стремимся учиться у них и добиваться большего в будущем.
Но прежде чем я объясню, как мы собираемся совершенствоваться, я хочу поделиться тем, что мы уже сделали.
Что мы сделали
В связи с потоком новых пользователей часть проблемы заключается в том, чтобы обеспечить надлежащее обучение, инструменты и поддержку, чтобы помочь им понять особенности своей учетной записи и узнать, как лучше всего использовать платформу.
- Мы предлагаем пользователям учебные занятия и учебные пособия, а также бесплатные интерактивные ежедневные веб-семинары. Мы активно разослали многие из этих ресурсов, чтобы помочь пользователям ознакомиться с Zoom.
Мы также усердно работали над тем, чтобы активно и быстро решать возникающие проблемы и вопросы.
- 20 марта мы опубликовали запись в блоге, чтобы помочь пользователям справиться со случаями домогательств (или так называемой "зумбомбовки") на нашей платформе, пояснив защитные функции, которые могут помочь предотвратить это, такие как залы ожидания, пароли, отключение звука. элементы управления и ограничение общего доступа к экрану. (Мы также изменили название и содержание этого сообщения в блоге, в котором незваных участников изначально называли «незваными гостями». достаточно. Мы абсолютно осуждаем подобные атаки и глубоко сочувствуем всем, чья встреча была прервана таким образом.)
- 27 марта мы предприняли меры по удалению Facebook SDK из нашего клиента iOS и перенастроили его, чтобы предотвратить сбор ненужной информации об устройствах от наших пользователей.
- 29 марта мы обновили нашу политику конфиденциальности, чтобы сделать ее более ясной и прозрачной в отношении того, какие данные мы собираем и как они используются. Мы прямо разъяснили, что мы не продаем данные наших пользователей, мы никогда не продавали пользовательские данные в прошлом. , и в дальнейшем не намерены продавать данные пользователей.
- Для образовательных учреждений мы:
- Выпущено руководство для администраторов по настройке виртуального класса.
- Создайте руководство, как лучше защитить виртуальные классы.
- Создайте специальную политику конфиденциальности для K-12.
- Изменены настройки для пользователей образовательных учреждений, зарегистрированных в нашей программе K-12, поэтому виртуальные залы ожидания включены по умолчанию.
- Изменены настройки для пользователей образования, зарегистрированных в нашей программе K-12, так что преподаватели по умолчанию являются единственными, кто может делиться контентом в классе.
- 1 апреля мы:
- Публиковал блог, чтобы прояснить факты о шифровании на нашей платформе, признавая и принося извинения за путаницу.
- Навсегда удалена функция отслеживания внимания посетителей. (обновлено 4/2, чтобы уточнить, что оно удалено навсегда)
- Выпущены исправления для обеих проблем, связанных с Mac, поднятых Патриком Уордлом.
- Выпущено исправление для проблемы со ссылкой UNC.
- Безвозвратно удалено приложение LinkedIn Sales Navigator после того, как эта функция обнаружила ненужное раскрытие данных. (обновлено 4/2, чтобы уточнить, что оно удалено навсегда)
Что мы собираемся делать
В течение следующих 90 дней мы обязуемся выделить ресурсы, необходимые для более эффективного выявления, устранения и упреждающего устранения проблем. Мы также стремимся к прозрачности на протяжении всего этого процесса. Мы хотим сделать все возможное, чтобы сохранить ваше доверие. Сюда входят:
- Немедленное замораживание функций и переключение всех наших инженерных ресурсов на решение самых серьезных проблем, связанных с доверием, безопасностью и конфиденциальностью.
- Проведение всесторонней проверки с участием сторонних экспертов и репрезентативных пользователей, чтобы понять и обеспечить безопасность всех наших новых вариантов использования для потребителей.
- Подготовка отчета о прозрачности, в котором содержится подробная информация о запросах данных, записей или контента.
- Улучшение нашей текущей программы вознаграждений за обнаружение ошибок.
- Создание совета директоров по информационной безопасности в партнерстве с ведущими директорами по информационной безопасности со всей отрасли для содействия постоянному диалогу о передовых методах обеспечения безопасности и конфиденциальности.
- Проведение серии одновременных тестов на проникновение методом "белого ящика" для дальнейшего выявления и устранения проблем.
- Начиная со следующей недели я буду проводить еженедельные веб-семинары по средам, чтобы сообщать нашему сообществу об обновлениях конфиденциальности и безопасности.
Прозрачность всегда была основной частью нашей культуры. Я обязуюсь быть открытым и честным с вами в отношении областей, в которых мы укрепляем нашу платформу, и областей, в которых пользователи могут предпринимать собственные шаги, чтобы наилучшим образом использовать и защищать себя на платформе.
Мы приветствуем ваши постоянные вопросы и призываем вас оставлять нам отзывы. Наша главная задача сейчас и всегда состоит в том, чтобы сделать пользователей счастливыми и убедиться, что безопасность, конфиденциальность и защищенность нашей платформы достойны вашего доверия. вложите в нас.
Вместе давайте создадим то, что действительно может сделать мир лучше!
Исследователи UX и другие заинтересованные стороны проекта часто горячо спорят о количестве участников, необходимом для изучения юзабилити. В основе этих дебатов часто лежит противоречие между стремлением специалиста по юзабилити получить наилучшее исследование и желанием бизнес-команды сократить время и расходы.
В 2009 году Ритч написал для Журнала юзабилити-исследований статью под названием "Как определить размер группы участников для юзабилити-исследований: практическое руководство", чтобы решить эту проблему.Он основывал свою статью на обширном обзоре доступной на тот момент литературы, и его целью было помочь специалистам по юзабилити дать четкие рекомендации по размеру групп участников в конкретных контекстах, а также понять основу для этих рекомендаций и связанные с ними риски.
Недавно из-за постоянного интереса специалистов по юзабилити мы решили вернуться к этому вопросу и просмотреть более современную литературу. Мы написали эту статью, чтобы обобщить ключевые выводы из предыдущей статьи Ритча, которые остаются актуальными и сегодня.
Фундаментальные вопросы исследования юзабилити
Было проведено много исследований юзабилити. Часто цель состояла в том, чтобы определить единственное оптимальное количество участников для исследования. Однако большую часть этого исследования характеризуют два ключевых недостатка, а именно:
- В этих исследованиях часто используются весьма продвинутые статистические методы, незнакомые многим специалистам по юзабилити. Поэтому их достоверность может быть трудно оценить.
- Они сосредоточены почти исключительно на обнаружении проблем, что не всегда является основной целью тестирования удобства использования.
В результате этих недостатков многие специалисты по юзабилити принимают это исследование в качестве руководства, не понимая связанного с ним обоснования, контекста, рассуждений и рисков.
Использование статистики в исследованиях юзабилити
Специалисты по юзабилити не должны выступать за «максимально надежные исследования любой ценой».
В более ранней статье Ритч утверждал, что специалисты по юзабилити не должны выступать за «исследования, которые обладают максимальной надежностью, любой ценой». Вместо этого мы должны работать с другими заинтересованными сторонами, чтобы создать реалистичный план исследования, оптимальный для проекта в целом.
При цитировании статистических данных мы должны учитывать допустимую погрешность любых выводов. Например, в часто цитируемом заявлении Якоба Нильсена «Пять участников обнаружат более 80% проблем» есть нечто большее, чем часто представляют исследовательские группы. Эта конкретная статистика имеет уровень достоверности 95% и погрешность ±18,5%, что означает, что существует 95%-ная вероятность того, что группа из пяти участников обнаружит от 66,5% до 100% проблем. В то время как некоторые группы из пяти человек в исследовании Нильсена обнаружили почти все проблемы, одна группа обнаружила только 55% проблем. Поэтому мы не можем считать, что пяти участников достаточно для каждой ситуации тестирования удобства использования. Если участников всего пять, результаты могут не рассказать всей истории.
Мы также должны подвергнуть сомнению достоверность статистических методов, которые позволили получить эти цифры. На самом деле статистические методы не свободны от мнений или предубеждений, поскольку они основаны на допущениях того или иного типа. Это означает, что мы могли бы сделать разные выводы из одних и тех же данных исследования, если бы использовали разные статистические методы. Помните поговорку «Есть ложь, наглая ложь, а есть статистика»?
Исследования для выявления проблем
Два важных аспекта исследований по обнаружению проблем заключаются в том, что может быть сложно как определить проблему, так и оценить важность обнаруженных проблем.
Два важных аспекта исследований, связанных с обнаружением проблем, заключаются в том, что может быть сложно как определить проблему, так и оценить важность обнаруженных проблем. По мнению Д.А. Коултона, проблемы часто являются фактором взаимодействия между пользователем и продуктом, а не обязательно статической функцией пользовательского интерфейса. Конкретная проблема может существовать не только для некоторых участников, конкретная проблема может существовать только для одного участника в один день, но не в другой день. Поэтому может быть очень трудно договориться о том, что на самом деле представляет собой проблему. Кроме того, ранжирование проблем очень субъективно.
При организации исследования юзабилити необходимо учитывать вероятный средний процент и необходимый минимальный уровень обнаружения проблем — другими словами, средний процент проблем, которые вы надеетесь найти, а также минимальный процент. Как видно из Таблицы 1, увеличение числа участников с 5 до 10 значительно увеличивает ожидаемый уровень выявления проблем, но увеличение количества участников с 15 до 20 оказывает гораздо меньшее влияние. Эти цифры очень важны для понимания. У нас может быть меньше участников в исследовании, если необнаруженные проблемы будут иметь небольшое влияние на пользователей, но мы должны иметь больше участников, если ставки высоки — например, в критических ситуациях для жизни или предприятия. У нас также может быть меньше участников, если будет возможность найти важные проблемы во время более позднего раунда тестирования.
Из Фолкнера, 2003 г.
Еще одним важным фактором является сложность самого исследования. Нильсена часто критикуют за то, что он ссылается на результаты простых исследований с четко определенными задачами.Понятно, что чем сложнее задачи, тем сложнее должно быть исследование и тем больше может потребоваться участников. В таком случае также необходимо рассмотреть вопросы обучения. Если вся целевая группа пользователей будет проходить одинаковое обучение, это существенно уменьшит сложность исследования, и вы сможете привлечь меньшее количество участников.
Исследования по оценке прототипа нового дизайна пользовательского интерфейса часто связаны с обнаружением серьезных проблем, препятствующих показу. Тестирование обычно выявляет такие серьезные ошибки относительно быстро, поэтому для таких тестов часто требуется меньше участников.
Исследования по оценке прототипа нового дизайна пользовательского интерфейса часто связаны с обнаружением серьезных проблем, препятствующих показу. Тестирование обычно выявляет такие серьезные ошибки относительно быстро, поэтому для таких тестов часто требуется меньшее количество участников.
Таким образом, вопреки распространенному мнению, не существует универсального решения для исследований по выявлению проблем. Контекст и сложность оказывают большое влияние на соответствующее количество участников, необходимое для такого исследования. Эта реальность, вероятно, является фактором разнообразия широко цитируемых советов. Например, и Вирци, и Перфетти, и Ландесман обнаружили, что подходящее количество участников для многих исследований колеблется от трех до двадцати. Утверждение Нильсена о том, что пяти участников достаточно, было явно основано на простых исследованиях, и совсем недавно он заявил, что количество участников должно увеличиваться по мере усложнения и критичности исследования. Фолкнер утверждал, что десять участников, вероятно, найдут как минимум 82% проблем. Тернер считает, что семь участников могут быть идеальными даже для сложных исследований.
Подводя итог, исследования показывают, что достоверные результаты могут дать от трех до двадцати участников, а хорошим исходным показателем является от пяти до десяти участников. В общем, для более сложных и ответственных проектов должно быть больше участников; в то время как при тестировании более новых дизайнов требуется меньшее количество участников.
Сравнительные исследования
А/Б-тест – это проверка гипотезы, то есть команда предполагает, что интерфейс Б будет работать лучше, чем интерфейс А, поэтому проводит тест, чтобы определить, так ли это.
Профессионалы по юзабилити часто проводят A/B-тесты, которые включают сравнение двух дизайнов друг с другом, чтобы определить, какой из них лучше. Часто новый дизайн B тестируется в сравнении с уже реализованным дизайном A. Другими словами, A/B-тестирование — это проверка гипотез, то есть команда предполагает, что интерфейс B будет работать лучше, чем интерфейс A. , поэтому запустите тест, чтобы определить, так ли это.
В сравнительных исследованиях обычно используются такие показатели удобства использования, как скорость выполнения задачи и время выполнения задачи. Эти метрики очень объективны, поэтому специалисты по юзабилити часто хотят представить статистически значимые результаты таких исследований. Эти результаты могут быть убедительными, но они имеют некоторые общие недостатки.
Чтобы отклонить нулевую гипотезу, мы должны быть достаточно уверены в том, что разные группы участников и целевая аудитория обладают одинаковыми навыками, то есть что план Б не дал лучшего результата, потому что группа Б была значительно более умелым. Это может быть трудно определить, поэтому следует соблюдать осторожность при цитировании таких результатов.
Также важно помнить, что даже если результат может быть статистически значимым, он может не иметь смысла. Например, если вы протестировали новый пользовательский интерфейс со 100 участниками и обнаружили, что они могут выполнять задачу на 2 % быстрее, результат будет статистически значимым, но не обязательно достаточно значимым, чтобы на него реагировать.
Один из подходов к сравнительным исследованиям – сделать их открытыми, увеличивая количество участников в группе до тех пор, пока не произойдет одно из следующих событий:
- Полученные данные становятся важными.
- Становится очевидным, что значительных результатов не будет, несмотря на тестирование с дополнительными участниками.
- Вы не можете продолжить исследование из-за ограничений по времени или бюджету.
Хотя открытые сравнительные исследования могут быть практичными в академических кругах, это, как правило, бесполезный подход в коммерческом мире, где нам нужно установить временные и бюджетные ограничения для исследований. Другой подход заключается в тестировании с очень большими группами участников, что, вероятно, даст статистически значимые результаты, если предположить, что это возможно. Однако такие тесты часто слишком дороги и требуют много времени для коммерческого контекста.
Эти проблемы привели к тому, что многие специалисты по юзабилити предположили, какой размер группы участников подходит для сравнительных исследований. Общий отраслевой формат (CIF) для отчетов о тестировании удобства использования рекомендует минимум восемь участников.Это согласуется с советом Нильсена и Ландауэра о том, что мы вряд ли получим статистически значимые результаты в группах менее восьми участников, но вполне вероятно получим их в группах из 25 участников. Спиридакис и Фишер обнаружили, что группы от десяти до двенадцати часто дают статистически значимые результаты.
Прерывистые исследования
Выполняйте юзабилити-исследования поэтапно. … Этот итеративный подход, хотя и необычный, часто является оптимальным и хорошо согласуется с философией проектирования, ориентированного на пользователя, и гибких подходов.
Еще один подход, который пропагандирует Ритч, заключается в поэтапном проведении исследований удобства использования. Например, на первом этапе вы можете провести тестирование с пятью участниками, и основной целью тестирования будет отлов любых остановок шоу. Вы бы запланировали дополнительные этапы тестирования, в каждом из которых участвовали бы пять человек, с целью получения статистически значимых результатов. Если на каком-либо этапе вы обнаружите ложные результаты или получите статистически значимые результаты, вы можете досрочно прекратить исследование и направить свое время и финансовые ресурсы в другое место. Этот итеративный подход, хотя и необычный, часто является оптимальным и хорошо согласуется с философией дизайна, ориентированного на пользователя, и гибких подходов. Однако может быть сложнее предсказать время и деньги, которые потребуются для вашего исследования, что может усложнить ситуацию с точки зрения управления.
Обзор
Не существует универсального решения для определения оптимального количества участников исследования удобства использования. Скорее, нам следует больше мыслить с точки зрения диапазонов, подобных тем, что показаны на рисунке 1. Исследования по обнаружению проблем, которые носят субъективный характер, обычно требуют от трех до двадцати участников, а от пяти до десяти — хороший базовый уровень. Как правило, количество участников должно увеличиваться по мере увеличения сложности исследования и критичности продукта, но уменьшаться по мере новизны дизайна.
Рисунок 1 —Количество участников исследования для выявления проблем и сравнительных исследований
Из Мейсфилда, 2009 г.
Для сравнительных исследований, которые, как правило, более объективны, чем исследования по обнаружению проблем, из-за их сильной зависимости от метрик, размер группы от восьми до 25 участников обычно дает достоверные результаты, а от десяти до двенадцати — хороший базовый уровень. Как правило, размер группы должен увеличиваться, если вы хотите получить статистически значимые результаты; прерывистые исследования могут быть эффективным способом достижения этой цели.
Какое бы количество участников вы ни использовали для конкретного исследования, вы всегда должны понимать допущения, ограничения и риски, связанные с вашим решением.
Ссылки
Колтон, Д.А. «Отказ от предположения об однородности в юзабилити-тестировании». Поведение и информационные технологии, Vol. 20 2001 г.
Национальный институт стандартов и технологий. «Проект: Стандарты юзабилити». Национальный институт стандартов и технологий, 2015 г. Проверено 1 октября 2015 г.
Фолкнер, Л. «Помимо предположения о пяти пользователях: преимущества увеличения размера выборки при юзабилити-тестировании». Методы, инструменты и компьютеры исследования поведения, Vol. 35, № 3, 2003.
Ландауэр, Томас К. «Методы исследования взаимодействия человека и компьютера». В Справочнике по взаимодействию человека с компьютером под ред. Мартин Г. Хеландер. Амстердам: Северная Голландия, 1988 г.
Нильсен, Якоб. «Почему вам нужно тестировать только 5 пользователей». Nielsen Norman Group, 19 марта 2000 г. Проверено 1 октября 2015 г.
Нильсен, Якоб и Томас К. Ландауэр. «Математическая модель поиска проблем юзабилити». Материалы ACM INTERCHI, 1993 г.
Перфетти, Кристин и Лори Ландесман. «Восьми недостаточно». UIE, 18 июня 2001 г. Проверено 1 октября 2015 г.
Спиридакис, Дж. Х. и Дж. Р. Фишер. «Юзабилити-тестирование в технических коммуникациях: применение настоящих экспериментальных разработок». Техническое сообщение, часть 4, 1992 г.
Тернер, Карл В., Джеймс Р. Льюис и Якоб Нильсен. «Определение размера выборки юзабилити-теста». Международная энциклопедия эргономики и человеческого фактора, 2-е изд., том. 3, изд. В. Карвовский. Бока-Ратон, Флорида: CRC Press, 2006 г.
Вирзи, Р. А. "Уточнение этапа тестирования оценки удобства использования: сколько субъектов достаточно?" Человеческий фактор, Vol. 34, 1992 г.
Читайте также: