viernes, 2 de septiembre de 2016

Que es Apache OOZIE hadoop?

Apache Oozie es un sistema de flujo de trabajo de programación basada en servidor para gestionar los trabajos de Hadoop (server-based workflow scheduling system).
logo de oozie
Los flujos de trabajo en Oozie se definen como una colección de flujo de control (control flow) y los nodos de acción en un gráfico acíclico dirigido. los nodos de control de flujo definen el comienzo y el final de un flujo de trabajo (inicio, final y los nodos de fallo), así como un mecanismo para controlar la ruta de ejecución de flujo de trabajo (decisión, fork y unir nodos). Los nodos de acción son el mecanismo por el cual un flujo de trabajo provoca la ejecución de una tarea de cálculo / procesamiento. Oozie proporciona soporte para para diferentes tipos de acciones entre ellas, incluidas Hadoop MapReduce Hadoop las operaciones del sistema de archivos distribuido, Pig, SSH, y correo electrónico. Oozie también se puede extender para soportar otros tipos de acciones.
Los flujos de trabajo oozie se pueden parametrizar utilizando variables como $ {InputDir} dentro de la definición de flujo de trabajo. Al enviar una tarea de flujo de trabajo, se deben proporcionar valores para los parámetros. Parametrizando correctamente (utilizando diferentes directorios de salida), varios trabajos de flujo de trabajo idénticos, estos pueden ejecutarse simultáneamente.
Oozie se implementa como una aplicación web Java que se ejecuta en un contenedor de servlets Java y se distribuye bajo la licencia Apache 2.0.


¿Qué es oozie?

Apache Oozie es una aplicación Web Java utilizada para programar trabajos Apache Hadoop.

Oozie combina varios trabajos de forma secuencial en una unidad lógica de trabajo. Se integra con la pila de Hadoop (Hadoop stack), con YARN como su centro de arquitectura, y es compatible con los trabajos de Hadoop MapReduce para Apache, Apache Pig, Apache Hive, y Apache Sqoop.

Oozie también puede programar tareas propias de un sistema, al igual que los programas Java o scripts de shell.


Apache Oozie es una herramienta para operaciones de Hadoop que permite a los administradores de clústeres construir las transformaciones de datos complejas a partir de las múltiples tareas que lo componen.
oozie en hadoop


Esto proporciona un mayor control sobre los trabajos (jobs)  y también hace que sea más fácil para repetir esos trabajos  a intervalos predeterminados. En su esencia, Oozie ayuda a los administradores obtener más valor de Hadoop.


Hay dos tipos básicos de trabajos oozie (Oozie jobs):

• Oozie Workflow los trabajos son gráficos acíclicos dirigidos (DAG), que especifica una secuencia de acciones a ejecutar. El flujo de trabajo de la tarea (Workflow job) tiene que esperar

• Oozie Coordinator los jobs son recurrentes en Oozie Workflow jobs y  son accionados por el tiempo y la disponibilidad de datos .
Oozie Bundle proporciona una manera de coordinar multiples paquetes, workflow jobs y gestionar el ciclo de vida de estos jobs.


Te invitamos a ser parte de la comunidad de sitiobigdata,com: http://sitiobigdata.com/index.php/2016/08/16/apache-hive-almacenamiento-hadoop/


No hay comentarios:

Publicar un comentario