- Разработка программного обеспечения для Big Data
- Тема 1. Большие данные и их характеристики
- Промежуточный тест 1
На каком этапе обработки больших данных корпорация внедряет основные информационные технологии для сбора больших данных?
Интегрирование
Управление
Анализ данных
Агрегация
Выделите преимущества, которые дает использование больших данных.
Большие данные позволяют получить более полные ответы, потому что предоставляют больше информации
Более полные ответы означают большую уверенность в данных, а это означает совершенно другой подход к решению проблем
Большие данные можно использовать только в случаях предопределенных функций
Любое изменение требований будет означать обновление всех этих структурированных данных для удовлетворения новых потребностей
Данные, у которых нет строго зафиксированного формата (например: текстовые документы, PDF, изображения и видеозапись) являются
квазиструктурированными
неструктурированными
полуструктурированными
структурированными
Какое ключевое действие включает то, что большие данные объединяют данные из множества разрозненных источников и приложений?
Интеграция
Управление
Анализ
Аудит
Какое свойство определяет, что наборы больших данных содержат разные типы данных в одной и той же неструктурированной базе данных?
Объем
Скорость
Разнообразие
Время
Разнородный источник данных, содержащий комбинацию простых текстовых файлов, изображений, видео является примером
структурированных данных
полуструктурированных данных
неструктурированных данных
расструктурированных данных
Технология NoSQL расшифровывается как
не SQL
не только SQL
новый SQL
SQL – это прошлое
Какими данными традиционное программное обеспечение для обработки данных просто не может управлять?
Большие данные
Огромные данные
Массивы данных
Мегаданные
К признакам определения больших данных относятся
объем, превышающий десятки терабайт
скорость обработки, приближающаяся к показателям систем реального времени
неструктурированные типы данных
использование алгоритмов Data mining
Как называется тип данных, которые не связаны какой-либо жесткой схемой хранения и обработки данных?
Структурированный
Полуструктурированный
Неструктурированный
Расструктурированный
Какой язык сериализации представляет собой облегченный формат файлов с открытым стандартом для обмена данными?
XML
JSON
YAML
JAVA
Основными особенностями нереляционных СУБД являются
слабая поддержка ACID
высокая отказоустойчивость
простой интерфейс
сильная модель параллелизма
Какие данные создают множество проблем с точки зрения их обработки для извлечения из них ценности?
Структурированные
Полуструктурированные
Неструктурированные
Расструктурированные
Большие данные характеризуются следующими признаками.
Большой объем информации
Высокая скорость изменения информации
Разнообразие и разнородность данных
Разный тип данных в структуре описания
Какая из СУБД относится к технологии NewSQL?
MongoDB
VoltDB
DB2
OrientDB
Дайте определение MapReduce.
Модель распределенных вычислений, предназначенная для параллельных вычислений над очень большими (до нескольких петабайт) объемами данных
Набор компонентов и интерфейсов для распределенных файловых систем и общего ввода-вывода
Распределенная файловая система, работающая на больших кластерах типовых
машин
Распределенный сервис для коллекционирования, сбора, и перемещения больших массивов данных
Укажите основные преимущества фреймворков.
Простой процесс диагностики и отладки
Повышенная эффективность кода
Ускоренная разработка
Автоматический процесс разработки
Какая из следующих СУБД подходит для организации высокодоступного и распределённого хранилища?
Cassandra
Hbase
MongoDB
CouchDB
Программный продукт, который упрощает создание и поддержку технически сложных либо нагруженных проектов, – это
фреймворк
утилита
драйвер
интерпретатор
Инструмент для работы с большими данными, который лучше всего подходит для приложений, которые не могут позволить себе потерять данные, даже если весь центр обработки данных не работает, – это
Storm
Cassandra
Qubole Data
Atlas.ti
Какой фреймворк выполняет распределенную обработку больших наборов данных между кластерами компьютеров?
Hadoop
Cassandra
Pentaho
Cloudera
Программный код, выполняющийся в общем случае на выделенной машине экземпляра HDFS и отвечающий за файловые операции, такие как открытие и закрытие файлов, создание и удаление каталогов, – это
NameNode
DataNode
FileNode
SystemNode
Самая быстрая, простая и безопасная современная платформа для работы с большими данными – это
Apache Flink
CouchDB
Pentaho
Cloudera
На каком этапе работы MapReduce входные данные делятся на блоки данных предопределенного размера?
input read
map
partition
reduce
Как называются таблицы, данные в которые загружаются внешними системами, без участия Hive ?
Внутренние
Внешние
Корпоративные
Системные таблицы
Инструмент для анализа больших данных, который предлагает набор продуктов для создания новых процессов интеллектуального анализа данных и настройки прогнозного анализа, – это
Apache Flink
CouchDB
Open Refine
RapidMiner
Выделите основные функции, которые характеризуют автономную платформу управления большими
Выберите один или несколько ответов:
Он использует технологии и инструменты больших данных, которые используют параллельные вычисления, выполняемые на кластере машин
Наличие технологии и инструментов для работы с большими данными, предлагающие надежную экосистему, которая хорошо подходит для удовлетворения аналитических потребностей разработчиков
Это программное обеспечение для больших данных с открытым исходным кодом, имеющее движки, оптимизированные для облака
Предоставляет действенные оповещения, информацию и рекомендации для оптимизации надежности, производительности и затрат
Инструмент для работы с большими данными для извлечения, подготовки и объединения данных – это
Storm
CouchDB
Pentaho
Atlas.ti
На каком этапе работы MapReduce результаты, полученные на этапе reduce, записываются в выходной поток?
output write
close
partition
write
- Разработка программного обеспечения для Big Data
- Тема 3. Языки программирования для эффективной обработки больших данных
- Промежуточный тест 3
Выберите неверные утверждения.
Язык R имеет статическую типизацию
Язык R имеет динамическую типизацию
Язык R имеет статическую типизацию с элементами динамической
Язык R не имеет типизации
Какой язык программирования выбрать, если планируется создавать решения для работы с большими данными, используя только традиционно доступные инструменты?
Scala
R
Go
Python
Java
Какой язык программирования поддерживает множество инфраструктур больших данных и инструментов обработки?
Scala
R
Go
Python
Java
Какой язык программирования может легко интегрироваться с существующими платформами больших данных, такими как Apache Hadoop и Apache Spark?
Scala
R
Go
Python
Java
Какой язык программирования используется для анализа данных и является точным в количественном выражении?
Scala
R
Go
Python
Java
Какими плюсами обладает язык программирования Scala?
Сочетает в себе объектно-ориентированный и функциональный языки программирования, что делает его одним из наиболее подходящих языков для работы с большими данными
Есть множество библиотек, подходящих для задач data science
Универсальный язык, позволяющий создавать любые проекты – от простых приложений до программ машинного обучения
Имеет открытый исходный код и позволяет работать со многими операционными системами благодаря тому, что этот инструмент является кроссплатформенным
Укажите парадигмы программирования при работе с большими данными.
Императивная
Декларативная
Параллельные вычисления
Объектно-ориентированная
Какой язык программирования разрабатывался как язык для научного программирования со скоростью, достаточной для удовлетворения потребностей в моделировании на интерактивном языке с последующей неизбежной обработкой кода на языке компиляции?
Scala
Julia
Python
Java
Какой язык программирования можно использовать для создания мобильных приложений, когда есть необходимость связать большие данные и искусственный интеллект?
Scala
Julia
SAS
Swift
- Разработка программного обеспечения для Big Data
- Тема 4. Big Data: технология, принципы и архитектура
- Промежуточный тест 4
Каковы проблемы инфраструктуры больших данных?
Безопасность, которая усложняется с большими наборами данных
Прогнозирование будущих потребностей и тенденций
Предоставление рассогласованных методов внедрения технологий, решающих сопоставимые проблемы
Масштабирование, которое может влиять на производительность
Выберите главные характеристики Big Data.
Огромный объем данных, скорость обработки больших данных, скорость появления новых данных
Огромный объем данных, скорость анализа данных, скорость обработки данных
Огромный объем данных, достоверность данных, ценность накопленной информации
Огромный объем данных, сложность типов данных и их структуры, скорость появления новых данных
Выделите проблемы больших данных.
Затраты на обработку
Конфиденциальность
Потеря информации
Сфера применения
Сбор неструктурированных данных включает
Выберите один или несколько ответов:
данные журналов событий внутренних систем
существующие архивы данных
данные GPS
аналоговые источники информации
Какой уровень архитектуры анализа больших данных получает результаты от уровня анализа больших данных и представляет их соответствующему уровню вывода, также известному как уровень бизнес-аналитики?
Уровень источников больших данных
Уровень управления и хранения
Уровень анализа
Уровень потребления
Для какой группы подходов к Big Data обработка не предполагает получения новых знаний, ее результаты соотносятся с априорными знаниями и позволяют судить о том, как протекают те или иные процессы?
Быстрые данные
Большая аналитика
Глубокое проникновение
Глубокая аналитика
Виды классификации информации, включаемой в большие данные, – это
операционные данные
коммерческие данные
официальные данные
свободные данные
Что включают задания для обработки данных с помощью длительных пакетных заданий?
Чтение исходных файлов
Обработку исходных файлов
Запись вывода в новые файлы
Чтение полученных файлов
Какой принцип архитектуры больших данных считает, что архитектура приложения для работы с большими данными должна иметь интуитивно понятный дизайн, который можно настраивать, он должен быть доступен через текущие используемые информационные панели и доступен в облаке?
Предварительный этап
ETL для больших данных
API служб данных
Сервис пользовательского интерфейса
Что предполагает анализ больших данных?
Распределение функций сбора, хранения и анализа данных между несколькими программами-исполнителями
Распределение функций сбора и хранения данных между несколькими программами-исполнителями
Распределение функций сбора и анализа данных между несколькими программами-исполнителями
Распределение функций сбора, хранения и анализа данных внутри программы-исполнителя
Механизм анализа в рамках больших данных включает следующую последовательность.
Сбор информации – анализ полученных данных – построение выводов
Сбор информации – построение выводов – анализ полученных данных
Анализ полученных данных – сбор информации – построение выводов
Анализ полученных данных – построение выводов – сбор информации
Разработка программного обеспечения для Big Data
Тема 5. HADOOP - эффективная архитектура Big Data
Промежуточный тест 5
Какие компоненты входят в состав Apache Hadoop?
MapReduce
HDFS
YARN
Zookeeper
Укажите преимущества Hadoop.
Хранение и быстрая обработка любых данных
Высокая мощность вычислений
Устойчивость к отказам
Не поддерживает небольшие файлы, потому что она предназначена для работы с большими объемами
Из каких компонентов состоит HBase?
Клиентской библиотеки
Главного сервера
Нескольких распределенных серверов
Библиотек интегрированных приложений
Какой компонент Apache Hadoop создает несколько реплик блоков данных и распределяет их по вычислительным узлам в кластере?
MapReduce
HDFS
YARN
Zookeeper
Какие задачи во время работы программы MapReduce выполняются на этапе Reduce?
Разделение данных
Отображение данных
Перетасовывание данных
Сокращение данных
Какие модули входят в базовую структуру Hadoop?
HDFS
MapReduce
YARN
Hadoop Common
Какой элемент высокоуровневой архитектуры Hadoop представляет все файлы и каталоги, которые используются в пространстве имен?
Имя узла
Узел данных
Мастер-узел
Ведомый узел
Какой компонент экосистемы Hadoop является нереляционной БД?
MapReduce
Hbase
Hive
Data Storage
Платформа, используемая для анализа больших наборов данных и основанная на языке высокого уровня для выражения программ анализа данных, включает инфраструктуру оценки этих программ
HDFS
Mahout
HBase
Pig
Какой компонент Apache Hadoop представляет собой вычислительную модель и программную среду для написания приложений?
MapReduce
HDFS
YARN
Zookeeper
Какой элемент высокоуровневой архитектуры Hadoop позволяет хранить данные для проведения сложных вычислений?
Имя узла
Узел данных
Мастер-узел
Ведомый узел
На каком уровне архитектуры экосистемы Hadoop проходят основные процессы обработки и анализа данных в рамках поставленной задачи?
Уровень хранения данных в распределенных реестрах
Уровень запроса данных
Уровень обработки данных
Уровень управления данными
Разработка программного обеспечения для Big Data
Тема 6. Общее представление об In-Memory OLTP
Промежуточный тест 6
Каковы преимущества технологии In-Memory OLTP?
Данные располагаются в памяти
Используются новые, специально разработанные структуры данных, которые лишены блокировок
Используются скомпилированные в машинные коды хранимые процедуры, которые хранят бизнес-логику
Меняется инфраструктура самой базы данных
Каковы ключевые особенности In-Memory OLTP?
Долговечность данных
Оптимизированный журнал транзакций
Резервное восстановление
Наличие буферного пула
In-Memory OLTP вводит следующие концепции.
Оптимизированные в памяти таблицы и индексы
Скомпилированные в собственном коде хранимые процедуры и пользовательские функции
Оптимизированный для памяти тип таблицы для табличной переменной
Скомпилированные в собственном коде модули T-SQL
Что включает транзакция базы данных?
Изменение
Вставка
Удаление
Запрос данных
Вывод данных
Какой параметр для встроенных методов оптимизации памяти рассматривается как параметр по умолчанию при создании таблиц, оптимизированных для памяти?
MEMORY_OPTIMIZED=ON
DURABILITY = SCHEMA_ONLY
DURABILITY = SCHEMA_AND_DATA
MEMORY_OPTIMIZED_DATA=ON
Выберите характеристики In-Memory OLTP.
Интегрирована с ядром базы данных SQL Server
Может использоваться для обработки таблиц данных транзакций, хранящихся в системной памяти
Может извлекать таблицы данных транзакций из дискового хранилища
Построена на двух основных компонентах
Выделите причины быстрой работы оптимизированных для памяти таблиц.
Двойное представление
Без блокировок
Меньше затрат на ведения журнала
Отсутствие версий строк
Укажите типы рабочих нагрузок, которые Microsoft рекомендует для использования In-Memory OLTP.
Приложения с высокой скоростью вставки данных, поступающие из нескольких одновременных подключений
Приложения, которые требуют масштабируемой производительности чтения для периодических пакетных вставок и обновлений
Задачи управления состоянием сеанса
Веб-приложения по обработке заявок от пользователей
Выполняющаяся в памяти OLTP позволяет повысить производительность обработки транзакций
путем оптимизации доступа к данным и выполнения транзакций
за счет устранения конфликтов блокировок
за счет устранения кратковременных блокировок между параллельно выполняемыми транзакциями
путем агрегации доступа к данным и синхронизации транзакций
Какие типы объектов используются для возвращающих табличные значения параметров, а также для промежуточных результирующих наборов в хранимых процедурах?
Таблицы, оптимизированные для памяти
Неустойчивые таблицы
Табличные типы, оптимизированные для памяти
Скомпилированные в собственном коде модули T-SQL
Разработка программного обеспечения для Big Data
Тема 7. SQL Server In-Memory OLTP
Промежуточный тест 7
Как называются таблицы, данные которых в случае сбоя или переключения сервера будут восстановлены из журналов транзакций?
Устойчивыми
Неустойчивыми
Стабильными
Динамическими
Скомпилированные в собственном коде хранимые процедуры можно использовать для поддерживаемых конструкций T-SQL
подзапросы
скалярные пользовательские функции
встроенные математические функции
системы интеграции
Тип индекса, который представляет собой список указателей, – это
хэш-индекс
диапазонный индекс
кластеризованный индекс
некластеризованный индекс
Какая структура данных In-Memory OLTP хранит свои данные в памяти, используя несколько версий данных каждой строки?
Таблица, оптимизированная для памяти
Хранимая процедура, скомпилированная в собственном коде
Таблица, скомпилированная для оптимизации памяти
Хранимая процедура, оптимизированная для синхронизации памяти
Выберите In-Memory технологии.
Выберите один или несколько ответов:
Redis
Tarantool
MapReduce
Hadoop
Во сколько раз рекомендуемое значение при указании индекса BUCKET COUNT должно превышать ожидаемое количество уникальных значений?
2
0,5
3
1,5
OLTP в памяти автоматически устанавливается
с 64-разрядной версией SQL Server 2014
с 64-разрядной версией SQL Server 2016 Enterprise
с 64-разрядной версией SQL Server 2016 Developer
с 32-разрядной версией SQL Server
Какие модели восстановления поддерживаются для базы данных?
Простая
С неполным протоколированием
Полная
Без протокола
Во сколько раз рекомендуемое значение при указании индекса BUCKET COUNT должно превышать ожидаемое количество
Ответ:
Для какой структуры данных для сохранения механизм OLTP в памяти создает набор файлов контрольных точек в файловой группе файлового потока?
Таблица, оптимизированная для памяти
Хранимая процедура, скомпилированная в собственном коде
Таблица, скомпилированная для оптимизации памяти
Хранимая процедура, оптимизированная для синхронизации памяти
Разработка программного обеспечения для Big Data
Тема 8. Проверка производительности для In-Memory OLTP
Промежуточный тест 8
Укажите сценарии приложений, в которых успешно используется выполняющаяся в памяти OLTP.
Обработка транзакций с высокой пропускной способностью и низкой задержкой
Прием данных из разных источников, включая интернет вещей
Кэширование и состояние сеанса
Обработка транзакций с низкой пропускной способностью и высокой задержкой
Выберите верные утверждения.
Оптимизированная для памяти табличная переменная хранится только в памяти и не имеет компонента на диске
Оптимизированная для памяти табличная переменная может передаваться в хранимую процедуру как возвращающий табличное значение параметр
Оптимизированная для памяти табличная переменная должна иметь по крайней мере один индекс
Оптимизированная для памяти табличная переменная требует использования базы данных tempdb или создает конфликт
Тип таблицы оптимизации памяти, который представляет собой таблицу, которая находится в памяти, где данные доступны после сбоя сервера, завершения работы или перезапуска SQL Server, – это
SCHEMA_AND_DATA
SCHEMA_ONLY
SCHEMA_AND_ONLY
SCHEMA_DATA
Выберите верные утверждения.
Табличные переменные, оптимизированные для памяти, не могут быть объявлены встроенными
Табличные переменные, оптимизированные для памяти, нужно создать заранее
Табличные переменные, оптимизированные для памяти, создаются по завершении процедур оптимизации
Таблицы, оптимизированные для памяти, должны иметь по крайней мере один индекс
Выберите характеристики таблиц, оптимизированных для памяти.
Находятся в базе данных tempdb
Находятся в пространстве памяти пользовательской базы данных
Схема исчезает при закрытии последнего сеанса, использующего ее
Схема сохраняется как часть пользовательской базы данных
Какую команду используют, чтобы оптимизировать переменную в хранимой процедуре?
memory_optimized
SCHEMA_ONLY
dbo.test_memory
memory-optimized table
Тип таблицы оптимизации памяти, который сохраняет свою структуру таблиц в случае сбоя сервера или его остановки, – это
SCHEMA_AND_DATA
SCHEMA_ONLY
SCHEMA_AND_ONLY
SCHEMA_DATA
Отзывы
Отзывов пока нет.