Loading...

Анализ Больших Данных

  • Генераторы Данных

    • Социальные сети и мессенджеры

      • Посты, лайки, комментарии, репосты

      • Фотографии и видео

      • История сообщений

    • Интернет Вещей (IoT)

      • Умные дома (датчики температуры, освещения)

      • Носимые устройства (фитнес-трекеры, умные часы)

      • Промышленные сенсоры

    • Транзакционные данные

      • Онлайн-покупки, банковские операции

      • Логи цепочек поставок

    • Мобильные устройства

      • Геолокационные данные (GPS)

      • История поиска и звонков

    • Научные исследования

      • Данные с телескопов (астрономия)

      • Геномные последовательности (биоинформатика)

      • Данные экспериментов на коллайдерах (физика)

  • Наборы данных

    • Объем

      • Эксабайты и зеттабайты информации

      • Невозможность обработки на одном компьютере

    • Скорость

      • Потоковые данные (например, данные с биржи)

      • Необходимость обработки в реальном или почти реальном времени

    • Достоверность

      • "Шум" в данных, неполнота, ошибки

      • Важность очистки и проверки данных

    • Разнообразие

      • Структурированные (таблицы в БД)

      • Неструктурированные (тексты, фото, видео)

      • Полуструктурированные (JSON, XML)

    • Ценность

      • Ключевая характеристика: извлечение пользы из данных
  • Технологии обработки

    • Платформы распределенных вычислений

    • Системы управления базами данных

    • Фреймворки для потоковой обработки

    • Облачные платформы

    • Инструменты для машинного обучения

  • Приложения для науки

    • Геномика и биоинформатика

      • Расшифровка ДНК, поиск причин заболеваний
    • Астрономия

      • Обработка данных с телескопов

      • Поиск экзопланет и галактик

    • Климатология и науки о Земле

      • Моделирование климатических изменений

      • Анализ спутниковых снимков

    • Физика высоких энергий

      • Анализ экспериментов на Большом адронном коллайдере
    • Медицина и фармакология

      • Отслеживание распространения эпидемий

      • Открытие новых лекарств с помощью анализа молекулярных данных

  • Социальный тренд

    • Умные города

      • Оптимизация транспортных потоков

      • Рациональное использование ресурсов (энергия, вода)

    • Персонализированная медицина

      • Лечение, основанное на генетических данных пациента
    • Борьба с мошенничеством

      • Выявление подозрительных финансовых операций в реальном времени
    • Точное земледелие

      • Анализ данных с дронов и датчиков для увеличения урожая
    • Улучшение сервисов и услуг

      • Персонализированные рекомендации

      • Повышение качества обслуживания клиентов

  • Компетенции специалистов

    • Ученый по данным

      • Статистика и математика

      • Программирование

      • Визуализация данных

    • Инженер данных

      • Проектирование

      • Знание SQL и NoSQL

      • Облачные технологии

    • Аналитик данных

      • Глубокое знание SQL

      • BI-инструменты

      • Бизнес-мышление

    • Инженер машинного обучения

      • Развертывание ML-моделей
  • Наука о данных и Инженерия данных

    • Наука о данных

      • Фокус: Построение прогнозных моделей, поиск инсайтов, принятие решений на основе данных

      • Цель: Ответить на вопрос "Что произойдет?" и "Почему?"

      • Методы: Статистический анализ, машинное обучение, исследовательский анализ

    • Инженерия данных

      • Фокус: Создание надежной, масштабируемой инфраструктуры для сбора, хранения и обработки данных

      • Цель: Обеспечить Data Scientist'ов и аналитиков качественными, готовыми к использованию данными

      • Методы: ETL/ELT, проектирование данных, работа с Big Data платформами