Технология Hadoop
-
Основные проекты Hadoop (Экосистема)
-
Хранение данных
-
HBase: Колоночная NoSQL база данных для реального доступа
-
Cassandra: Распределенная NoSQL БД (часто используется вместе с Hadoop)
-
-
Интерактивный анализ и SQL
-
Hive: Система запросов на основе SQL (HiveQL) для анализа данных в HDFS
-
Impala, Presto: Высокопроизводительные движки для интерактивных SQL-запросов
-
-
Управление потоковыми данными
-
Kafka: Распределенная система обмена сообщениями (публикация/подписка)
-
Storm, Flink, Spark Streaming: Обработка данных в реальном времени.
-
-
Координация и управление
- ZooKeeper: Сервис для координации распределенных приложений (конфигурация, синхронизация).
-
Инструменты для работы
-
Sqoop: Импорт/экспорт данных между HDFS и реляционными БД
-
Flume: Сбор и перенос логов и потоковых данных в HDFS
-
Oozie: Оркестрация рабочих процессов (пайплайнов) Hadoop
-
-
Обработка данных (альтернативы MapReduce)
-
Apache Spark: Универсаный и высокоскоростной фреймворк для обработки данных (память, графы, стриминг, ML)
-
Apache Tez: Фреймворк для выполнения сложных Directed Acyclic Graphs (DAG) задач
-
-
-
Назначение
-
Обработка больших данных (Big Data)
-
Назначение
-
Обработка больших данных (Big Data)
-
-
Масштабируемость
-
Отказоустойчивость
-
Экономическая эффективность
-
-
Основные компоненты (Hadoop Core)
-
Hadoop Distributed File System (HDFS)
-
NameNode: Главный узел, управляющий метаданными файловой системы
-
DataNode: Узлы для хранения блоков данных
-
Вторичный NameNode (Standby NameNode): Резервный узел для повышения отказоустойчивости
-
-
MapReduce
-
Фреймворк для параллельной обработки данных
-
Map: Стадия фильтрации и сортировки.
-
Reduce: Стадия агрегации и суммирования
-
-
Hadoop YARN (Yet Another Resource Negotiator)
-
ResourceManager: Управление ресурсами кластера
-
NodeManager: Агент на каждом узле, управляющий его ресурсами
-
ApplicationMaster: Управление жизненным циклом конкретного приложения
-
-
Hadoop Common (Hadoop Core)
- Общие библиотеки и утилиты, необходимые для работы других модулей
-
-
Применение Hadoop в Российской Федерации (Основные тенденции)
-
Ключевые отрасли внедрения
-
Телекоммуникации (МТС, Билайн, МегаФон, Tele2): Анализ трафика, прогнозирование оттока клиентов (churn prediction), персонализация тарифо
-
Финансовый сектор (Сбербанк, Тинькофф, ВТБ, Альфа-Банк): Фрод-мониторинг, скоринг, анализ транзакций, AML (противодействие отмыванию денег)
-
Ритейл и E-commerce (Wildberries, OZON, Яндекс.Маркет): Анализ покупательского поведения, рекомендательные системы, оптимизация логистики и запасов
-
Государственный сектор и "Ростелеком": Анализ данных госуслуг, умный город, безопасность
-
-
Основные тенденции
-
Переход от Hadoop к облачным и гибридным решениям: Миграция с "голого" Hadoop на облачные сервисы (Yandex.Cloud, SberCloud, VK Cloud, AWS, Azure) для большей гибкости
-
Доминирование Apache Spark: Spark становится основным фреймворком для обработки данных из-за высокой скорости и удобства API, часто заменяя классический MapReduce
-
Фокус на Data Science и ML/AI: Hadoop-экосистема (особенно Spark) используется как платформа для машинного обучения и построения прогнозных моделей (MLlib, TensorFlow на Spark)
-
Консолидация вокруг отечественного ПО: В свете импортозамещения растет интерес к российским дистрибутивам и платформам для Big Data (на базе Open Source).
-
-