Open Source Data Integration met MapReduce-support

Even preciseren: het gaat om Talend (open source Data Integration software) en het gaat om de open source implementatie van MapReduce: Apache Hadoop. Uiteraard :-).

(Talend vermeldde ik reeds als DI-onderdeel van open source BI-platformen, deel1 en deel 2, en na recente overname van Sopera, als opkomende EAI-speler die een open source alternatief biedt.)

Hoe doet Talend het, en wat is er zo sterk aan?

In de eerste plaats gaat het om connectiviteit, waarbij de bron en/of het resultaat van de ETL-routines in Hadoop gaat. Tot daar nog niks spectaculairs.
Maar de Talend Integration Suite gaat nog verder, en profiteert van haar mogelijkheid om native Hadoop-code te genereren, waarbij net de transformatie-operaties aan Hadoop gegeven worden om aldus van Hadoops performantie voor Big Data te profiteren.
Dit soort ETL is niet zo bekend, maar heet ELT: “Extract-Load-Transform”, een stokpaardje van Talend.

Merk wel op dat de generatie van Hadoop-code enkel in de Subscription-versie (Talend Integration Suite) vervat zit, niet in de gratis versie (Talend Open Studio). Geen verrassingen hier.

Voor de liefhebbers: lees hier meer.

Conclusie

MapReduce is niet alleen voor Analytics, en Talend is een belangrijke, groeiende speler, die ook Big Data aankan.

This entry was posted in Open Source and tagged by Dries Van Dromme. Bookmark the permalink.
avatar

About Dries Van Dromme

Consultant Onderzoek sinds juni 2006 bij Smals. Specialisatiedomeinen: Data Quality, Data Quality Tools, Strategic Business Analytics, Data Mining. Introduceerde en coacht het gebruik van Data Quality Tools binnen Smals. Vormde samen met ex-collega Jan Meskens het pioniersteam Predictive Analytics. Coacht het gebruik van R en RStudio binnen Smals en RSZ. Werd sinds juli 2017 gedetacheerd naar RSZ waar hij verantwoordelijk is geworden voor het Data Science team.

Leave a Reply

Your email address will not be published. Required fields are marked *