Articoli che trattano di hadoop

TPC-HS, il miglior benchmarking per Big Data applicato ad Hadoop

Una delle più grandi sfide per tutti coloro che si accingono a metter su un’infrastruttura in grado di gestire BIG DATA, è ottenere le migliori prestazioni possibili andando a variare N fattori e cercando di ottenere risultati soddisfacenti in un tempo relativamente breve. Essendo Apache Hadoop un framework installabile sia su piattaforme Linux che Windows, è giusto porsi alcune domande. Qual è il miglior OS da applicare al framework, citato in precedenza, in termini di prestazioni? La mia infrastruttura come deve essere configurata per avere buoni tempi di calcolo? Come posso valutare la mia architettura generale? Gli attori di questo…

Implementare Apache Hadoop in Microsoft Azure

Dopo aver affrontato Apache Hadoop nella sua descrizione generale, in questo articolo ci occuperemo di come implementare il semplice framework Apache Hadoop senza l’uso di applicativi in grado di gestire il data processing. È importate specificare che Apache Hadoop, è un framework in grado di gestire solo HDFS e il processo di MapReduce: Come si nota nell’immagine, per poter interfacciare eventuali applicativi di vario genere è necessario installare in maniera parallela software come Pig, Hive, HBase etc. Hadoop per il suo funzionamento deve essere installato su OS che sia Windows o Linux: in questa sperimentazione verrà installato su Ubuntu 16.04…

Implementazione e configurazione di Microsoft Azure HDInsight

Dopo aver osservato nell’articolo precedente una prima introduzione del framework Apache Hadoop, in grado di gestire BIG DATA tramite cluster di server distribuiti, a partire dal processo di MapReduce sino alle tipologie di configurazioni, in questa pubblicazione si analizzeranno e descriveranno i passaggi per configurare HDInsight sulla piattaforma Cloud Microsoft Azure. Azure HDInsight distribuisce ed esegue il provisioning dei cluster Apache Hadoop gestiti nel cloud, offrendo un framework progettato per elaborare, analizzare e creare report sui Big Data con elevata affidabilità e disponibilità. HDInsight usa la distribuzione Apache Hadoop ed esso colleziona al suo intero un ecosistema di componenti dedicato…

Apache Hadoop: BIG DATA a portata di Framework

Hadoop è un framework Open Source di Apache, concepito per offrire supporto ad applicazioni distribuite che elaborano grandi quantità di dati (Big Data) in parallelo, su cluster di grandi dimensioni (costituiti da migliaia di nodi), e semplificare le operazioni di storage e gestione di dataset assicurando un’elevata affidabilità e disponibilità. Introduzione Con la rapida diffusione dei Social Media, IoT (Internet of Things), tecnologie mobile e elettronica di consumo, il mercato IT e i colossi del ventunesimo secolo si sono adattati a gestire quantità di dati sempre superiori. Con i loro imponenti datacenter, si sono preoccupati di immagazzinare una grossa mole…