Технология Hadoop

Основные проекты Hadoop (Экосистема)
- Хранение данных
  - HBase: Колоночная NoSQL база данных для реального доступа
  - Cassandra: Распределенная NoSQL БД (часто используется вместе с Hadoop)
- Интерактивный анализ и SQL
  - Hive: Система запросов на основе SQL (HiveQL) для анализа данных в HDFS
  - Impala, Presto: Высокопроизводительные движки для интерактивных SQL-запросов
- Управление потоковыми данными
  - Kafka: Распределенная система обмена сообщениями (публикация/подписка)
  - Storm, Flink, Spark Streaming: Обработка данных в реальном времени.
- Координация и управление
  - ZooKeeper: Сервис для координации распределенных приложений (конфигурация, синхронизация).
- Инструменты для работы
  - Sqoop: Импорт/экспорт данных между HDFS и реляционными БД
  - Flume: Сбор и перенос логов и потоковых данных в HDFS
  - Oozie: Оркестрация рабочих процессов (пайплайнов) Hadoop
- Обработка данных (альтернативы MapReduce)
  - Apache Spark: Универсаный и высокоскоростной фреймворк для обработки данных (память, графы, стриминг, ML)
  - Apache Tez: Фреймворк для выполнения сложных Directed Acyclic Graphs (DAG) задач
Назначение
- Обработка больших данных (Big Data)
  - Назначение
  - Обработка больших данных (Big Data)
- Масштабируемость
- Отказоустойчивость
- Экономическая эффективность
Основные компоненты (Hadoop Core)
- Hadoop Distributed File System (HDFS)
  - NameNode: Главный узел, управляющий метаданными файловой системы
  - DataNode: Узлы для хранения блоков данных
  - Вторичный NameNode (Standby NameNode): Резервный узел для повышения отказоустойчивости
- MapReduce
  - Фреймворк для параллельной обработки данных
  - Map: Стадия фильтрации и сортировки.
  - Reduce: Стадия агрегации и суммирования
- Hadoop YARN (Yet Another Resource Negotiator)
  - ResourceManager: Управление ресурсами кластера
  - NodeManager: Агент на каждом узле, управляющий его ресурсами
  - ApplicationMaster: Управление жизненным циклом конкретного приложения
- Hadoop Common (Hadoop Core)
  - Общие библиотеки и утилиты, необходимые для работы других модулей
Применение Hadoop в Российской Федерации (Основные тенденции)
- Ключевые отрасли внедрения
  - Телекоммуникации (МТС, Билайн, МегаФон, Tele2): Анализ трафика, прогнозирование оттока клиентов (churn prediction), персонализация тарифо
  - Финансовый сектор (Сбербанк, Тинькофф, ВТБ, Альфа-Банк): Фрод-мониторинг, скоринг, анализ транзакций, AML (противодействие отмыванию денег)
  - Ритейл и E-commerce (Wildberries, OZON, Яндекс.Маркет): Анализ покупательского поведения, рекомендательные системы, оптимизация логистики и запасов
  - Государственный сектор и "Ростелеком": Анализ данных госуслуг, умный город, безопасность
- Основные тенденции
  - Переход от Hadoop к облачным и гибридным решениям: Миграция с "голого" Hadoop на облачные сервисы (Yandex.Cloud, SberCloud, VK Cloud, AWS, Azure) для большей гибкости
  - Доминирование Apache Spark: Spark становится основным фреймворком для обработки данных из-за высокой скорости и удобства API, часто заменяя классический MapReduce
  - Фокус на Data Science и ML/AI: Hadoop-экосистема (особенно Spark) используется как платформа для машинного обучения и построения прогнозных моделей (MLlib, TensorFlow на Spark)
  - Консолидация вокруг отечественного ПО: В свете импортозамещения растет интерес к российским дистрибутивам и платформам для Big Data (на базе Open Source).