L'ingestion de données peut être réalisée en flux continu ou en mode batch.
Les flux continus peuvent être mis en œuvre avec des produits tels que :
- Kafka
- InfluxDB
- Apache Nifi
- Apache Flume
Le mode batch s'appuie plus sur des ETL (Extract, Transform, Load) produits par :
- un logiciel intégré comme Talend Open Studio, Informatica
- des outils de traitement de données distribués comme Apache Spark ou Dask
- des scripts Pig ou Hive
- des requêtes SQL avec Hive ou Apache Impala
Liens