Loading...

Технология Hadoop

  • Основные проекты Hadoop (Экосистема)

    • Хранение данных

      • HBase: Колоночная NoSQL база данных для реального доступа

      • Cassandra: Распределенная NoSQL БД (часто используется вместе с Hadoop)

    • Интерактивный анализ и SQL

      • Hive: Система запросов на основе SQL (HiveQL) для анализа данных в HDFS

      • Impala, Presto: Высокопроизводительные движки для интерактивных SQL-запросов

    • Управление потоковыми данными

      • Kafka: Распределенная система обмена сообщениями (публикация/подписка)

      • Storm, Flink, Spark Streaming: Обработка данных в реальном времени.

    • Координация и управление

      • ZooKeeper: Сервис для координации распределенных приложений (конфигурация, синхронизация).
    • Инструменты для работы

      • Sqoop: Импорт/экспорт данных между HDFS и реляционными БД

      • Flume: Сбор и перенос логов и потоковых данных в HDFS

      • Oozie: Оркестрация рабочих процессов (пайплайнов) Hadoop

    • Обработка данных (альтернативы MapReduce)

      • Apache Spark: Универсаный и высокоскоростной фреймворк для обработки данных (память, графы, стриминг, ML)

      • Apache Tez: Фреймворк для выполнения сложных Directed Acyclic Graphs (DAG) задач

  • Назначение

    • Обработка больших данных (Big Data)

      • Назначение

      • Обработка больших данных (Big Data)

    • Масштабируемость

    • Отказоустойчивость

    • Экономическая эффективность

  • Основные компоненты (Hadoop Core)

    • Hadoop Distributed File System (HDFS)

      • NameNode: Главный узел, управляющий метаданными файловой системы

      • DataNode: Узлы для хранения блоков данных

      • Вторичный NameNode (Standby NameNode): Резервный узел для повышения отказоустойчивости

    • MapReduce

      • Фреймворк для параллельной обработки данных

      • Map: Стадия фильтрации и сортировки.

      • Reduce: Стадия агрегации и суммирования

    • Hadoop YARN (Yet Another Resource Negotiator)

      • ResourceManager: Управление ресурсами кластера

      • NodeManager: Агент на каждом узле, управляющий его ресурсами

      • ApplicationMaster: Управление жизненным циклом конкретного приложения

    • Hadoop Common (Hadoop Core)

      • Общие библиотеки и утилиты, необходимые для работы других модулей
  • Применение Hadoop в Российской Федерации (Основные тенденции)

    • Ключевые отрасли внедрения

      • Телекоммуникации (МТС, Билайн, МегаФон, Tele2): Анализ трафика, прогнозирование оттока клиентов (churn prediction), персонализация тарифо

      • Финансовый сектор (Сбербанк, Тинькофф, ВТБ, Альфа-Банк): Фрод-мониторинг, скоринг, анализ транзакций, AML (противодействие отмыванию денег)

      • Ритейл и E-commerce (Wildberries, OZON, Яндекс.Маркет): Анализ покупательского поведения, рекомендательные системы, оптимизация логистики и запасов

      • Государственный сектор и "Ростелеком": Анализ данных госуслуг, умный город, безопасность

    • Основные тенденции

      • Переход от Hadoop к облачным и гибридным решениям: Миграция с "голого" Hadoop на облачные сервисы (Yandex.Cloud, SberCloud, VK Cloud, AWS, Azure) для большей гибкости

      • Доминирование Apache Spark: Spark становится основным фреймворком для обработки данных из-за высокой скорости и удобства API, часто заменяя классический MapReduce

      • Фокус на Data Science и ML/AI: Hadoop-экосистема (особенно Spark) используется как платформа для машинного обучения и построения прогнозных моделей (MLlib, TensorFlow на Spark)

      • Консолидация вокруг отечественного ПО: В свете импортозамещения растет интерес к российским дистрибутивам и платформам для Big Data (на базе Open Source).