David is Coding

Just another techie blog

Real-Time Twitter Analysis 4: Displaying the Results

In the previous post, we processed a stream of tweets in real-time with Spark Streaming in order to calculate son information such as tops and counters. Now is the turn of displaying this data in an easier way to be consumed by humans. Along with this post, we’ll create a simple web-based Dashboard by using […]

Real-Time Twitter Analysis 3: Tweet Analysis on Spark

Real-Time Analysis on Spark

We already got a Twitter Stream ingested in our cluster using Flume and Kafka, as was described in my previous post. The next step is to process and analyze tweets taken from a Kafka topic with Apache Spark Streaming. Our goal here is to make some calculations on top of the received tweets in order […]

Real-Time Twitter Analysis 2: Twitter Stream with Flume

Ingesting Twitter Stream

We already discussed the architecture for this project in my previous post here. Now, it’s time for jumping into the mood and start working on it. The first step is to ingest the Twitter Stream into our cluster. For this task, we’ll use Apache Flume and Apache Kafka, which in conjunction are also known as […]

Real-Time Twitter Analysis 1: Introduction

After setting up the Cloudera’s Quickstart VM, as described in my previous post, it’s time to show some hands-on experience about Data Engineering. For this purpose, I opted for performing a real-time sentiment analysis over this social media. The idea is to put into play different tools and skills I got during the Big Data […]

Installing Spark 2 and Kafka on Cloudera’s Quickstart VM

As you probably know, to operate with Big Data, we need a cluster of several nodes. Unfortunately, people normally don’t have access to any of them. If we want to learn how to use the technologies behind, we need to make use of VMs with a pseudo cluster assembled in it, and a set of […]

Impala: retrieve data from HDFS

Cloudera Impala is another tool that allows queries with a language very similar to SQL over data stored in Hadoop file systems. This tool is designed to return results with low latency, which makes it ideal for interactive queries. It can be very similar to Hive, since, in essence, they have the same purpose, retrieve […]

Query data stored in HDFS with Hive

Apache Hive tool that works on Hadoop systems that allow querying data stored in HDFS as if it were a SQL relational database. Hive is a high-level abstraction on top of MapReduce that allows us to generate jobs using statements in a language very similar to SQL, called HiveQL. Using Hive is much faster and […]

Import and export data with Sqoop in HDFS

When working with Big Data in Hadoop environments, a very useful command line tool is Apache Sqoop. This allows us to import data stored in relational databases into HDFS, as well as to export data in HDFS to relational databases. The name of this tool comes from SQL + Hadoop, Sqoop, and it is based […]

(Spanish) Metodologías Ágiles III: Scrum

En este caso toca el turno de Scrum, una de las metodologías ágiles más famosas. Durante esta entrada se realizará un repaso sobre esta metodología dónde se mostrarán los elementos y los roles participan en ella, y cómo se desarrolla su proceso. Todo desde un enfoque teórico, y pensado para aquellas personas que se acercan […]

(Spanish) Metodologías Ágiles II: eXtreme Programming

Tras realizar una introducción sobre las Metodologías Ágiles, en esta segunda entrada me centraré en repasar Extreme Programming, también conocida como XP o Programación Extrema. Todo desde un enfoque teórico, y pensado para aquellas personas que se acercan por primera vez a este concepto o han oído hablar alguna vez sobre ello pero quieren profundizar […]

(Spanish) Metodologías Ágiles I: ¿qué son?

En esta primera entrada sobre Metodologías Ágiles realizaré una introducción a este concepto, por qué aparecieron, cuales son las motivaciones para aplicarlas, y en qué proyectos funcionan mejor.   Las Metodologías Ágiles surgieron de la necesidad de enfrentarse al cambio en proyectos de software. En otras disciplinas de ingeniería como en arquitectura o aeronáutica, por […]

(Spanish) ¿Quieres emprender? Aplica Lean Startup

¿Qué es? El hecho de tener una idea, emprender mediante una startup, y convertirla en un producto perfecto que hará del mundo un lugar mejor, hoy en día, es el sueño de muchos amantes de la tecnología. Este ideal romántico está muy alejado de la realidad, ya que una startup es una institución humana diseñada […]

(Spanish) Realidad Aumentada IV: ¿Cómo funciona?

En anteriores posts hemos conocido de qué trata esta tecnología, cómo puede ser aplicada, y algunos ejemplos de campos en los que ha demostrado ser útil. Pero, ¿cómo funciona esta tecnología realmente?, os preguntaréis. Para ello debemos entender el proceso de generación de experiencias de Realidad Aumentada, y qué tecnologías se usan para esta tarea. […]

(Spanish) Realidad Aumentada III: Técnicas de aplicación

Previamente hemos visto qué es la Realidad Aumentada, y cuáles son sus posibles campos de aplicación. En este post exploraremos cuáles son las distintas técnicas que existen para aplicar esta tecnología. A día de hoy existen principalmente dos técnicas basadas en metáforas: la metáfora del espejo, y la metáfora de las gafas. Metáfora del espejo […]

(Spanish) Realidad Aumentada I: ¿Qué es?

Con este post pretendo comenzar una serie divulgativa sobre la Realidad aumentada, que iré completando a lo largo del tiempo. En ella hablaré sobre esta tecnología en profundidad, desde su definición, hasta frameworks de desarrollo, pasando por técnicas y campos de aplicación. Introducción Los dispositivos móviles de hoy en día están dotados de tecnologías que […]