Search *

Page 6 of 204 results

absaoss/spark-hats 0.3.0

Nested array transformation helper extensions for Apache Spark

Scala versions: 2.13 2.12 2.11

arrays schema spark nested-structures scala

36 6
joomcode/trace-analysis 0.1.1

Library for performance bottleneck detection and optimization efficiency prediction

Scala versions: 2.13 2.12

opentracing performance spark optimization jaeger

36 2
agile-lab-dev/darwin 1.2.2

Avro Schema Evolution made easy

Scala versions: 2.13 2.12 2.11 2.10

schema-evolution avro hadoop scala hbase spark avro-schema

34 10
music-of-the-ainur/almaren-framework 0.9.11-3.4

The Almaren Framework provides a simplified consistent minimalistic layer over Apache Spark. While still allowing you to take advantage of native Apache Spark features. You can still combine it with standard Spark code.

Scala versions: 2.13

spark

31 13
sansa-stack/archived-sansa-query 0.7.1

SANSA Query Layer

Scala versions: 2.11

rdf flink partitioning distributed-computing spark sparql

31 10
intenthq/pucket 1.7.3

Bucketing and partitioning system for Parquet

Scala versions: 2.11

parquet spark thrift hdfs partitioning scala

29 5
indix/sparkplug 0.2.0

Spark package to "plug" holes in data using SQL based rules ⚡️ 🔌

Scala versions: 2.10

datapipeline spark spark-sql

28 8
sansa-stack/archived-sansa-inference 0.7.1

A general Inference API based on two of the most popular Big Data processing engines: Apache Spark and Apache Flink

Scala versions: 2.11

flink rdfs spark semantic-web distributed-computing owl reasoning

28 6
fsanaulla/chronicler-spark 0.6.0

InfluxDB connector to Apache Spark on top of Chronicler

Scala versions: 2.12 2.11

chronicler streaming dataframe spark scala rdd influxdb

27 2
fsanaulla/chronicler 0.7.2

Scala toolchain for InfluxDB

Scala versions: 2.13 2.12 2.11

chronicler url-connection async-http-client akka-http influxdb spark macros scala udp

27 7
agile-lab-dev/wasp 2.35.0

WASP is a framework to build complex real time big data applications. It relies on a kind of Kappa/Lambda architecture mainly leveraging Kafka and Spark. If you need to ingest huge amount of heterogeneous data and analyze them through complex pipelines, this is the framework for you.

Scala versions: 2.12 2.11

jdbc elasticsearch kafka hadoop spark scala hbase hdfs yarn parquet akka spark-streaming solr

30 15
sansa-stack/archived-sansa-owl 0.7.1

SANSA Stack OWL (Web Ontology Language) API

Scala versions: 2.11

flink owl spark semantic-web distributed-computing

25 6
weaviate/spark-connector 1.3.3

Weaviate connector for Apache Spark

Scala versions: 2.13 2.12

spark vector-search weaviate

32 12
alonsodomin/sbt-spark 0.6.0

Simple SBT plugin to configure Spark applications

Scala versions: 2.12 2.10

sbt plugins: 1.x 0.13

boilerplate sbt scala spark

24 2
arangodb/arangodb-spark-connector 2.0.0

Scala versions: 2.12 2.11

arangodb nosql java spark scala

33 8
locationtech/rasterframes 0.11.1

Geospatial Raster support for Spark DataFrames

Scala versions: 2.12

geotrellis earth-observation sparksql spark-ml spark scala image-processing machine-learning

248 10
pierrenodet/spark-ensemble 0.9.1

Ensemble Learning for Apache Spark 🌲

Scala versions: 2.13 2.12

spark-ml scala bagging machine-learning boosting ensemble-learning stacking gbm spark

23 2
timgent/data-flare 3.2.0_0.1.14

Data quality control tool built on spark and deequ

Scala versions: 2.12

big-data data-quality spark

24 5
absaoss/pramen 1.10.1

Resilient data pipeline framework running on Apache Spark

Scala versions: 2.13 2.12 2.11

hacktoberfest etl big-data spark data-pipeline scala

23 7
whylabs/whylogs-java 0.1.3

Profile and monitor your ML data pipeline end-to-end

Scala versions: 2.12

whylogs apache-spark calculate-statistics statistics approximate-statistics data-quality java dataset statistical-properties aiops mlops spark ai-pipelines

177 6

1
2
3
4
5
6 (current)
7
8
9
10