Apache Spark est un framework de calcul distribué open source, conçu pour le traitement rapide et généralisé de données à grande échelle. Il fournit des interfaces de programmation pour Java, Scala, Python et R, et intègre des modules complémentaires pour le traitement de données structurées, le machine learning, le traitement de graphes, et le streaming en temps réel.
Spark se distingue par sa capacité à effectuer des calculs en mémoire, offrant des performances nettement supérieures à celles d'autres frameworks de traitement de données de grande taille, tels que Hadoop MapReduce. En permettant des analyses complexes et interactives sur de grands ensembles de données, Spark est particulièrement utile pour les applications nécessitant un accès rapide aux données intermédiaires répétitives.