| 1 |
Компания «CloudSecure» предоставляет услуги облачного хранения данных. Команда аналитиков изучает статистику использования дискового пространства клиентами. Аналитики собрали следующие данные (в гигабайтах) о размере занимаемого дискового пространства для 10 случайных клиентов:
[10, 15, 12, 25, 18, 15, 16, 14, 10, 20]
Аналитики хотят проанализировать распределение данных, чтобы понять, насколько равномерно клиенты используют дисковое пространство. С этой целью они вычислили Среднее значение и Медиану.
Какие значения получили аналитики соответственно для Среднего значения и Медианы? |
| 2 |
Компания «DataFlow» разрабатывает систему мониторинга производительности серверов. Система собирает различные данные, включая рейтинг удовлетворенности пользователей. Оценка в нем установлена от 1 до 5, где 1 — крайне недоволен, 5 — очень доволен.
Какую шкалу измерений должен выбрать менеджер проекта чтобы правильно интерпретировать собранные данные и использовать их в анализе? |
| 3 |
Компания «SecureNet» разрабатывает систему обнаружения вторжений (IDS). Чтобы оценить эффективность новой версии IDS, команда проводит тестирование. Они устанавливают новую версию IDS в тестовой сети и в течение недели собирают данные о количестве ложных срабатываний (когда IDS ошибочно определяет нормальную активность как подозрительную).
Старая версия IDS выдавала в среднем 5 ложных срабатываний в день. Аналитики хотят проверить, уменьшилось ли количество ложных срабатываний с новой версией IDS.
В результате тестирования новая версия IDS выдавала в среднем 4 ложных срабатывания в день. Стандартное отклонение количества ложных срабатываний новой версии составило 1,5. Количество дней тестирования — 25.
Аналитики провели односторонний (однонаправленный) t-тест и получили p-значение (p-value), равное 0,06.
Используя уровень значимости (альфа), равный 0,05, какой вывод можно сделать на основе результатов t-теста? |
| 4 |
Компания «CodeCraft» разрабатывает новую поисковую систему. Чтобы оценить удобство использования, они провели тестирование. Пять добровольцев использовали старую версию поисковика, а затем пять других добровольцев использовали новую версию. Тестируемым нужно было выполнить несколько заданий по поиску информации. Время, затраченное на выполнение заданий (в секундах), было измерено для каждой версии поисковика.
Поскольку время выполнения заданий не всегда подчиняется нормальному распределению (может быть искажено, например, из-за внешних факторов), аналитик решил использовать непараметрический статистический тест для сравнения двух групп.
Полученные результаты тестирования:
Старая версия: 30, 45, 60, 35, 50
Новая версия: 25, 38, 55, 32, 40
Какой непараметрический критерий наиболее подойдет для сравнения двух независимых выборок (старая и новая версии) в данной ситуации? |
| 5 |
Компания NetworkFlow разрабатывает систему управления трафиком. Они внедрили новый алгоритм балансировки нагрузки и теперь хотят оценить его эффективность. Для этого они собирают данные о количестве запросов, обработанных каждым сервером в течение часа.
В тестовой среде у них есть 3 сервера (три независимых выборки). Сначала, для контроля, были собраны данные до внедрения нового алгоритма балансировки нагрузки. Затем, после внедрения, данные собирались снова.
Данные (количество обработанных запросов в час) для каждого сервера представлены в таблице ниже:
| Сервер |
До (Старый алгоритм) |
После (Новый алгоритм) |
| 1 |
1200 |
1350 |
| 2 |
1500 |
1550 |
| 3 |
1800 |
1700 |
Аналитик хочет определить, является ли разница в обработке запросов статистически значимой, то есть повлиял ли новый алгоритм на распределение нагрузки между серверами. Поскольку данные о количестве запросов необязательно должны подчиняться нормальному распределению, аналитик решил использовать непараметрический тест.
Какой непараметрических критерий наиболее подойдет для анализа данных в данной ситуации? |
| 6 |
1. Компания предоставляет услуги хостинга. Аналитики компании хотят понять, как связаны между собой два важных показателя.
2. «Загрузка ЦП (использование процессора): процент времени, которое процессор сервера тратит на обработку задач».
3. «Время отклика (Response Time): время, которое требуется серверу для ответа на запрос пользователя (в миллисекундах)».
Аналитики собрали данные об использовании процессора и времени отклика за несколько дней. Они подозревают, что чем выше загрузка процессора, тем больше времени требуется для ответа на запросы (то есть время отклика). Они хотят использовать корреляционный анализ, чтобы проверить эту гипотезу.
Какой коэффициент корреляции следует использовать, чтобы оценить взаимосвязь между загрузкой ЦП и временем отклика? |
| 7 |
Компания «SecureChat» разрабатывает защищенное приложение для обмена сообщениями. Они хотят понять, как размер (в килобайтах) отправляемого сообщения влияет на время его отправки (в миллисекундах).
Аналитик собрал данные о размере нескольких сообщений и времени, которое потребовалось для их отправки. Он хочет определить, есть ли связь между размером сообщения и временем отправки.
Какой тип анализа лучше всего использовать для определения связи между размером сообщения и временем отправки? |
| 8 |
В компании «SmartAds» анализируют эффективность рекламных кампаний. Они заметили, что чем больше денег тратится на рекламу (бюджет), тем больше новых пользователей приходит на их сайт.
Аналитик хочет узнать, насколько сильно связаны потраченная сумма (бюджет) и количество новых пользователей.
Какой коэффициент корреляции лучше всего использовать для измерения связи между бюджетом рекламной кампании и количеством новых пользователей? |
| 9 |
Компания разрабатывает программное обеспечение (ПО) для управления проектами. Они внедрили новую систему лицензирования, которая предусматривает пробный период использования ПО. Компания хочет проанализировать, как долго пользователи используют пробную версию ПО, прежде чем принять решение о покупке лицензии.
Аналитики собирают данные о пользователях, которые зарегистрировались для пробной версии. Они фиксируют:
Время использования: количество дней, в течение которых пользователь использовал пробную версию.
Статус: покупка лицензии (1) или отказ от использования (0) (цензурированные данные). Если пользователь купил лицензию, это означает, что он «пережил» определенный период. Если пользователь отказался, это означает, что он «выбыл» из исследования.
Аналитики используют таблицы выживаемости для анализа этих данных. Они хотят оценить вероятность того, что пользователь продолжит использовать пробную версию в течение определенного времени.
Что представляет собой «функция выживаемости» (Survival Function) в контексте этого анализа? |
| 10 |
Компания «CloudStorage» предоставляет услуги облачного хранения данных. Они внедрили новую систему хранения данных, оптимизированную для более быстрого доступа к файлам. Компания хочет оценить, насколько новая система влияет на время доступа к файлам, хранящимся в облаке.
Аналитики собирают данные о времени (в секундах), которое требуется пользователям для загрузки файлов из облака.
Они фиксируют:
1. время доступа: время, затраченное на загрузку файла (в секундах).
2. цензура: если файл был успешно загружен, это нецензурированные данные (1). Если при загрузке произошла ошибка (например, из-за временных проблем с сетью), это цензурированные данные (0), то есть мы знаем, что время загрузки превышает измеренное, но точное время неизвестно.
Аналитики используют таблицы выживаемости для анализа времени доступа. Они хотят построить график выживаемости, чтобы визуализировать вероятность того, что файл будет загружен в течение определенного времени.
В контексте анализа выживаемости, что представляют собой цензурированные данные? |
Отзывы
Отзывов пока нет.