Анализ Больших Данных
-
Генераторы Данных
-
Социальные сети и мессенджеры
-
Посты, лайки, комментарии, репосты
-
Фотографии и видео
-
История сообщений
-
-
Интернет Вещей (IoT)
-
Умные дома (датчики температуры, освещения)
-
Носимые устройства (фитнес-трекеры, умные часы)
-
Промышленные сенсоры
-
-
Транзакционные данные
-
Онлайн-покупки, банковские операции
-
Логи цепочек поставок
-
-
Мобильные устройства
-
Геолокационные данные (GPS)
-
История поиска и звонков
-
-
Научные исследования
-
Данные с телескопов (астрономия)
-
Геномные последовательности (биоинформатика)
-
Данные экспериментов на коллайдерах (физика)
-
-
-
Наборы данных
-
Объем
-
Эксабайты и зеттабайты информации
-
Невозможность обработки на одном компьютере
-
-
Скорость
-
Потоковые данные (например, данные с биржи)
-
Необходимость обработки в реальном или почти реальном времени
-
-
Достоверность
-
"Шум" в данных, неполнота, ошибки
-
Важность очистки и проверки данных
-
-
Разнообразие
-
Структурированные (таблицы в БД)
-
Неструктурированные (тексты, фото, видео)
-
Полуструктурированные (JSON, XML)
-
-
Ценность
- Ключевая характеристика: извлечение пользы из данных
-
-
Технологии обработки
-
Платформы распределенных вычислений
-
Системы управления базами данных
-
Фреймворки для потоковой обработки
-
Облачные платформы
-
Инструменты для машинного обучения
-
-
Приложения для науки
-
Геномика и биоинформатика
- Расшифровка ДНК, поиск причин заболеваний
-
Астрономия
-
Обработка данных с телескопов
-
Поиск экзопланет и галактик
-
-
Климатология и науки о Земле
-
Моделирование климатических изменений
-
Анализ спутниковых снимков
-
-
Физика высоких энергий
- Анализ экспериментов на Большом адронном коллайдере
-
Медицина и фармакология
-
Отслеживание распространения эпидемий
-
Открытие новых лекарств с помощью анализа молекулярных данных
-
-
-
Социальный тренд
-
Умные города
-
Оптимизация транспортных потоков
-
Рациональное использование ресурсов (энергия, вода)
-
-
Персонализированная медицина
- Лечение, основанное на генетических данных пациента
-
Борьба с мошенничеством
- Выявление подозрительных финансовых операций в реальном времени
-
Точное земледелие
- Анализ данных с дронов и датчиков для увеличения урожая
-
Улучшение сервисов и услуг
-
Персонализированные рекомендации
-
Повышение качества обслуживания клиентов
-
-
-
Компетенции специалистов
-
Ученый по данным
-
Статистика и математика
-
Программирование
-
Визуализация данных
-
-
Инженер данных
-
Проектирование
-
Знание SQL и NoSQL
-
Облачные технологии
-
-
Аналитик данных
-
Глубокое знание SQL
-
BI-инструменты
-
Бизнес-мышление
-
-
Инженер машинного обучения
- Развертывание ML-моделей
-
-
Наука о данных и Инженерия данных
-
Наука о данных
-
Фокус: Построение прогнозных моделей, поиск инсайтов, принятие решений на основе данных
-
Цель: Ответить на вопрос "Что произойдет?" и "Почему?"
-
Методы: Статистический анализ, машинное обучение, исследовательский анализ
-
-
Инженерия данных
-
Фокус: Создание надежной, масштабируемой инфраструктуры для сбора, хранения и обработки данных
-
Цель: Обеспечить Data Scientist'ов и аналитиков качественными, готовыми к использованию данными
-
Методы: ETL/ELT, проектирование данных, работа с Big Data платформами
-
-