Search *

21 results

byzer-org/byzer-lang 2.1.0

Byzer (former MLSQL): A low-code open-source programming language for data pipeline, analytics and AI.

Scala versions: 2.12 2.11

bigdata machine-learning mlsql sql-like-dsl

1839 46
apache/hudi 0.15.0

Upserts, Deletes And Incremental Processing on Big Data.

Scala versions: 2.13 2.12 2.11

stream-processing data-integration apacheflink apachespark incremental-processing hudi bigdata datalake apachehudi

5464 376
gearpump/gearpump 0.9.0

Lightweight real-time big data streaming engine over Akka

Scala versions: 2.12

akka bigdata scala stream-processing

763 26
apache/incubator-livy 0.8.0-incubating

Apache Livy is an open source REST interface for interacting with Apache Spark from anywhere.

Scala versions: 2.12 2.11

apachelivy bigdata livy spark

892 73
pingcap/tispark 3.2.3

TiSpark is built for running Apache Spark on top of TiDB/TiKV

Scala versions: 2.12

bigdata spark tidb tikv

884 43
apache/celeborn 0.5.2

Apache Celeborn is an elastic and high-performance service for shuffle and spilled data.

Scala versions: 2.13 2.12 2.11

bigdata shuffle spark

896 99
mjakubowski84/parquet4s 2.20.0

Read and write Parquet in Scala. Use Scala classes as schema. No need to start a cluster.

Scala versions: 3.x 2.13 2.12

bigdata aws fs2 writer reader parquet-files google-storage hadoop streams akka-streams scala parquet akka

283 17
azure/azure-event-hubs-spark 2.1.5

Enabling Continuous Data Processing with Apache Spark and Azure Event Hubs

Scala versions: 2.11

apache-spark streaming azure eventhubs kafka stream scala real-time microsoft spark-streaming bigdata continuous databricks structured-streaming spark apache ingestion connector event-hubs

235 37
clustering4ever/clustering4ever 0.11.0

C4E, a JVM friendly library written in Scala for both local and distributed (Spark) Clustering.

Scala versions: 2.11

big-data scalability spark artificial-intelligence scala ai clustering-evaluation clustering bigdata clustering-algorithm

130 5
minio/spark-select 2.1

A library for Spark DataFrame using MinIO Select API

Scala versions: 2.11

bigdata amazon-s3 parquet-files select pyspark spark minio sbt spark-sql

96 2
microsoft/mobius 2.0.200

C# and F# language binding and extensions to Apache Spark

Scala versions: 2.11

bigdata apache-spark streaming mapreduce dataframe eventhubs kafka-streaming rdd dstream spark-streaming near-real-time csharp mobius spark dataset fsharp

941 37
gigahexhq/jetprobe 0.1.0

🚀 Validation DSL for data pipelines

Scala versions: 2.12 2.11

bigdata akka scala integration-testing stream-processing akka-actors

24 2
grouzen/zio-apache-parquet 0.1.5

Scala ZIO-powered Apache Parquet library

Scala versions: 3.x 2.13

bigdata parquet-tools parquet parquet-files parquet-format big-data apache-parquet zio2 zio scala zio-streams

21 2
kotlin/kotlin-spark-api 1.2.4

This projects gives Kotlin bindings and several extensions for Apache Spark. We are looking to have this as a part of Apache Spark 3.x

Scala versions: 2.13 2.12

bigdata nullability spark scala kotlin

463 17
grouzen/zio-apache-arrow 0.1.2

Scala ZIO-powered Apache Arrow library

Scala versions: 3.x 2.13 2.12

bigdata datafusion apache-arrow big-data zio2 arrow-datafusion zio scala zio-streams arrow

11 2
anicolaspp/jmcli 1.0.1

A remote CLI interface for MapR

Scala versions: 2.13

bigdata jvm java scala mapr maprc cli

3 1
zuinnote/hadoopoffice

HadoopOffice - Analyze Office documents using the Hadoop ecosystem (Spark/Flink/Hive)

bigdata poi office hadoop spark hadoopoffice hadoop-ecosystem flink excel analyze-office-documents hive

63 1
mvillafuertem/mapflablup 0.1

Mapflablup is a library to flat ➖ and blowup 🎈 Map Collection

Scala versions: 2.12

bigdata collection map scala

1 2
sksamuel/kotlin-big-data

Kotlin Bigdata Toolkit

Scala versions: 2.11 2.10

bigdata java kotlin orc parquet

326 6
huemulsolutions/huemul_sql_decode 1.0

Obtiene los campos y tablas utilizados en una sentencia SQL

Scala versions: 2.12

bigdata sql governance data chile spark data-governance

0 2