File system (sistemas de archivos)
Hadoop DFS - Distributed File System
El Hadoop Distributed File System (HDFS) es lo que se denomina un file system o sistema de archivos distribuido, que es tanto escalable como portátil escrito en lenguaje Java para el framework Hadoop.Cada node (nodo) en una instancia Hadoop típicamente tiene un único data node (nodo de datos); un clúster data conforma el clúster HDFS. La situación es normal porque cada node no requiere un data node para estar presente.
Cada node otorga data blocks o bloques de datos sobre la red usando un determinado protocolo de bloqueo específico para HDFS. El file system (sistema de archivos) utiliza la capa TCP/IP para comunicarse; los clientes usan RPC para dialogar y así comunicarse entre ellos mismos.
![]() |
Arquitectura HDFS - visite: sitiobigdata.com |
Con el valor de replicación (3) tres por defecto, los datos se alojan en 3 nodos: dos en el mismo rack, y el restante en un rack distinto. Los nodes de datos pueden dialogar entre ellos para nivelar datos, mover copias, y mantener alta lo que es la réplica de datos.
HDFS no cumple de forma total con POSIX porque lo que requiere un file system POSIX difiere de los objetivos de una app Hadoop, porque el objetivo no es tanto satisfacer los estándares POSIX sino obtener la mayor eficacia y rendimiento de los datos. HDFS fue diseñado para administrar archivos muy grandes. HDFS no nos proporciona Alta disponibilidad.
Otros sistemas de archivos
A junio de 2010, el listado de file systems soportados incluye:- HDFS: El sistema nativo de Hadoop. Está esquematizado para la escala de decenas de petabytes de almacenaje y funciona sobre los sistemas de archivos de base.
- Amazon S3. El mismo apunta a clusters almacenados en la infraestructura del server bajo demanda Amazon Elastic Compute Cloud. No hay neutralidad de racks en este file system, porque todo él es remoto.
- Cloudstore (antes denominado Kosmos Distributed File System), que conoce de los racks.
- FTP: éste almacena todos sus datos en un server FTP accessible de forma remota.
- HTTP y HTTPS de solo lectura.
Hadoop puede trabajar con cualquier file system distribuido, el mismo puede ser subido por el SO (sistema operativo) solamente usando la Url file://, pero en la realidad es que esto tiene un precio: la perdida de localidad. Para disminuir el trafico de red, Hadoop precisa saber qué servers están más cercanos o proximos a los datos; esta información sólo la pueden brindar los puentes específicos del file system específico de Hadoop.
![]() |
Detalle de Bloque de replicación y datanodes visite: sitiobigdata.com |
Diversos puentes de file systems de terceros han sido escritos, actualmente ninguno de ellos están en las organizaciones de Hadoop. Éstas pueden considerarse que son más de próposito general que HDFS, el cual está en gran medida sesgado hacia archivos de gran tamaño y solo ofrece un subconjunto de la semántica esperada de POSIX Filesystem que no es posible bloquear o escribir en cualquier lugar, pero si es posible en la cola del archivo.
Te invitamos a ser parte de la comunidad de sitiobigdata.com: http://sitiobigdata.com/index.php/2016/08/30/apache-pig-conceptos-basicos-hadoop/
No hay comentarios:
Publicar un comentario