Apache Spark by RAMOS BENITES, SERGIO RAUL

¿Para qué sirve APACHE SPARK?

971148_1 — 2024-04-27 13:13:41 UTC

Sirve para procesar grandes conjuntos de datos. En este framework, los programadores pueden trabajar sin preocuparse por la distribución del trabajo y la tolerancia a fallos.

Está Diseñado para cubrir una amplia gama de cargas de trabajo que previamente requerían sistemas distribuidos diferentes.

Incluyen procesamiento batch, algoritmos iterativos, queries interactivas, procesamiento streaming… a menudo empleados todos ellos en un pipeline típico de análisis de datos.

Spark es flexible en su utilización, y es que ofrece una serie de APIs que permiten a usuarios con diferentes backgrounds poder utilizarlo. Incluye APIs de Python, Java, Scala, SQL y R.

Fuente:

https://www.tokioschool.com/noticias/introduccion-apache-spark/

https://www.esic.edu/rethink/tecnologia/apache-spark-introduccion-que-es-y-como-funciona

Sergio Ramos

¿Que es APACHE SPARK?

971148_1 — 2024-04-27 13:15:11 UTC

Apache Spark es una plataforma de código abierto ampliamente utilizada para el procesamiento de datos a gran escala. Es preferida por su velocidad, escalabilidad y facilidad de uso, ideal para operar con grandes conjuntos de datos en entornos distribuidos en su papel de la ingeniería de datos, su arquitectura y componentes principales son muy buenos, así como los diversos enfoques de implementación y casos de uso comunes en este campo.

Fuente:

https://medium.com/@DataEngineeer/introduction-to-apache-spark-for-data-engineering-d2060166165a

Danfer Moriano

¿Cuál es la historia de Apache Spark?

moiseslobo08 — 2024-04-27 13:18:51 UTC

Apache Spark se originó en 2009 dentro de un proyecto de investigación en el Amplab de la Universidad de California en Berkeley. Este proyecto era una colaboración entre estudiantes, investigadores y profesores, y se enfocaba en aplicaciones que requerían un manejo extensivo de datos.

La meta de Spark era desarrollar un nuevo framework diseñado para procesamiento iterativo rápido, como el aprendizaje automático y el análisis interactivo de datos, manteniendo al mismo tiempo la capacidad de escalabilidad y tolerancia a fallos de Hadoop MapReduce.

El primer artículo descriptivo, denominado "Spark: Cluster Computing with Working Sets" (Spark: Computación en clúster con conjuntos de trabajo), fue publicado en junio de 2010, y el proyecto fue liberado como código abierto bajo una licencia BSD. Spark puede operar de manera autónoma, en Apache Mesos o, más comúnmente, en Apache Hadoop.

Fuente:

https://www.bigdata.uma.es/apache-spark-un-poco-de-historia/

https://es.wikipedia.org/wiki/Apache_Spark

Yohangel lobo

¿Cuáles son los casos de uso de Apache Spark?

1443863_1 — 2024-04-27 13:26:46 UTC

1. Servicios financieros:

En la banca, Spark se utiliza para predecir la pérdida de clientes y recomendar nuevos productos financieros.

En la banca de inversión, ayuda en el análisis de precios de acciones y predicción de tendencias futuras.

2. Atención sanitaria:

Se utiliza para proporcionar una atención integral al paciente, poniendo datos a disposición de los trabajadores de salud para cada interacción con el paciente.

También puede utilizarse para predecir o recomendar tratamientos.

3. Fabricación:

En la fabricación, Spark se emplea para reducir el tiempo de inactividad de los equipos conectados a Internet, recomendando cuándo realizar mantenimiento preventivo.

4. Comercio minorista:

Se usa para atraer y retener clientes mediante ofertas y servicios personalizados.

fuentes:

https://aws.amazon.com/es/what-is/apache-spark/

https://docs.netapp.com/es-es/netapp-solutions/data-analytics/apache-spark-use-cases-summary.html#transmisi%C3%B3n-de-datos

Marliz Cerron

¿Qué Empresas grandes utilizan Apache Spark?

1438240 — 2024-04-27 13:28:06 UTC

Facebook: Utiliza Spark para generar miles de millones de datos de usuarios, desde publicaciones y comentarios hasta interacciones y métricas de rendimiento.
(https://www.facebook.com/databricksinc/)
Netflix: Analiza datos de visualización para comprender las preferencias de los usuarios y ofrecer recomendaciones personalizadas. Spark también los ayuda a optimizar la entrega de contenido y gestionar el ancho de banda. (https://www.databricks.com/dataaisummit/session/stranger-triumphs-automating-spark-upgrades-migrations-netflix)
Amazon: Emplea Spark para procesar grandes conjuntos de datos de productos, pedidos y actividades de los clientes. Esto les permite mejorar la búsqueda de productos, optimizar las recomendaciones y gestionar el inventario de manera eficiente. (https://www.amazon.com/databricks/s?k=databricks)

¿Cómo funciona Apache Spark?

2024-04-27 13:29:02 UTC

Apache Spark es un motor de procesamiento distribuido que se encarga de orquestar, distribuir y monitorizar aplicaciones que contienen múltiples tareas de procesamiento de datos sobre varias máquinas de trabajo, que forman un cluster.

A pesar de ello, Spark no almacena datos en sí mismo, sino que tiene el foco puesto en el procesamiento.

Es importante hablar de la velocidad de procesamiento: la clave es la posibilidad que ofrece Spark para realizar el procesamiento en memoria a velocidades sorprendentes.

Jasiel Lozada

Fuentes:

https://www.bigdata.uma.es/apache-spark-introduccion-que-es-y-como-funciona/

https://aws.amazon.com/es/what-is/apache-spark/

¿Cuáles son las diferentes herramientas de Spark?

1438240 — 2024-04-27 13:36:03 UTC

Spark es un marco informático de clúster de código abierto que proporciona un conjunto de herramientas para el procesamiento de datos distribuidos.Algunas de las herramientas y componentes principales de Apache Spark son:

Spark Core: es el núcleo del proyecto Spark y proporciona la funcionalidad principal para el procesamiento de datos, incluida la API RDD (Resilient Distributed Dataset), que es una colección distribuida inmutable de objetos.

Spark SQL: le permite ejecutar consultas SQL en datos estructurados, integrando el procesamiento de SQL con el código Spark existente.

Spark Streaming: Puede integrarse con varias fuentes de datos como Kafka, Flume, Kinesis, etc., y realizar análisis de los datos en tiempo real.

MLlib (Machine Learning Library): Se trata de una biblioteca de aprendizaje automático escalable que ofrece algoritmos y herramientas para realizar análisis predictivos y modelado de datos a gran escala.

Spark GraphX: es una biblioteca de procesamiento de gráficos distribuido que forma parte de Apache Spark, un marco de código abierto para el procesamiento distribuido de grandes conjuntos de datos.

https://www.bigdata.uma.es/que-es-spark-y-como-revoluciona-al-big-data-y-al-machine-learning/

https://spark.apache.org/

¿Cuáles son los beneficios de Apache Spark?

2024-04-27 13:45:10 UTC

Apache Spark tiene muchas ventajas que lo convierten en uno de los proyectos más activos de Hadoop.

Entre ellas se incluyen:

Rápido

Mediante el almacenamiento en memoria caché y una ejecución de consultas optimizada puede ejecutar consultas de análisis rápidas en datos de cualquier tamaño.

Idóneo para desarrolladores

Apache Spark dispone de compatibilidad nativa con Java, Scala, R y Python, con lo que dispone de diversos lenguajes para crear sus aplicaciones. Estas API facilitan las cosas a sus desarrolladores, ya que ocultan la complejidad del procesamiento distribuido detrás de operadores simples y de alto nivel, lo que reduce drásticamente la cantidad de código requerida.

Varias cargas de trabajo

Apache Spark ofrece la capacidad de ejecutar varias cargas de trabajo, incluidas consultas interactivas, el análisis en tiempo real, machine learning y el procesamiento de gráficos. Una aplicación puede combinar varias cargas de trabajo sin problemas.

Fuentes:

https://www.bbvaapimarket.com/es/mundo-api/apache-spark-las-ventajas-de-usar-al-nuevo-rey-de-big-data/

Ariana Yupanqui