Search *

Page 2 of 35 results

swoop-inc/spark-records 3.0.1

Bulletproof Apache Spark jobs with fast root cause analysis of failures.

Scala versions: 2.12

apache-spark big-data sparksql scala spark-records spark swoop

72 4
dataflint/spark 0.2.6

Performance Observability for Apache Spark

Scala versions: 2.13 2.12

observability databricks emr etl big-data optimization data-pipeline dataproc apache-spark spark-operator data-pipelines

198 5
locationtech-labs/geopyspark 0.3.0

GeoTrellis for PySpark

Scala versions: 2.11

tile-server geotrellis big-data geospatial spark python

179 9
timgent/data-flare 3.2.0_0.1.14

Data quality control tool built on spark and deequ

Scala versions: 2.12

big-data data-quality spark

24 5
absaoss/pramen 1.10.1

Resilient data pipeline framework running on Apache Spark

Scala versions: 2.13 2.12 2.11

hacktoberfest etl big-data spark data-pipeline scala

23 7
grouzen/zio-apache-parquet 0.1.5

Scala ZIO-powered Apache Parquet library

Scala versions: 3.x 2.13

bigdata parquet-tools parquet parquet-files parquet-format big-data apache-parquet zio2 zio scala zio-streams

21 2
apache/incubator-wayang 0.7.1

Apache Wayang(incubating) is the first cross-platform data processing system.

Scala versions: 2.12 2.11

data-management-platform jdbc cross-platform big-data hadoop scala middleware distributed-system java spark apache data-processing open-source performance

190 33
grouzen/zio-apache-arrow 0.1.2

Scala ZIO-powered Apache Arrow library

Scala versions: 3.x 2.13 2.12

bigdata datafusion apache-arrow big-data zio2 arrow-datafusion zio scala zio-streams arrow

11 2
databeans/lighthouse 0.1.0

Shed light on your data layout in order to monitor the health of your Lakehouse tables and identify when data maintenance operations should be performed.

Scala versions: 2.12

big-data delta-lake spark analytics performance

10 2
diana-hep/spark-root 0.1.16

Apache Spark Data Source for ROOT File Format

Scala versions: 2.11

root big-data histogrammar spark scala python

29 4
apache/incubator-parquet-mr 1.6.0

Mirror of Apache Parquet

Scala versions: 2.10

big-data java parquet

1 0
h2oai/h2o-3 3.30.0.3

H2O is an Open Source, Distributed, Fast & Scalable Machine Learning Platform: Deep Learning, Gradient Boosting (GBM) & XGBoost, Random Forest, Generalized Linear Modeling (GLM with Elastic Net), K-Means, PCA, Generalized Additive Models (GAM), RuleFit, Support Vector Machine (SVM), Stacked Ensembles, Automatic Machine Learning (AutoML), etc.

Scala versions: 2.11

deep-learning gpu opensource big-data java pca h2o-automl python h2o r machine-learning automl naive-bayes ensemble-learning data-science distributed hadoop gbm spark random-forest

6935 235 173
catboost/catboost 1.2.7

A fast, scalable, high performance Gradient Boosting on Decision Trees library, used for ranking, classification, regression and other machine learning tasks for Python, R, Java, C++. Supports computation on CPU and GPU.

Scala versions: 2.13 2.12

gpu cuda gbdt tutorial coreml gbm kaggle catboost python r machine-learning decision-trees gradient-boosting categorical-features data-mining big-data gpu-computing data-science

8111 1570 192
apache/flink-ml 2.0.0

Machine learning library of Apache Flink

Scala versions: 2.12

big-data java flink ml python machine-learning

307 17
ytsaurus/ytsaurus 2.4.1

YTsaurus is a scalable and fault-tolerant open-source big data platform.

Scala versions: 2.12

sql olap-database ytsaurus big-data distributed-database lakehouse spark clickhouse

1893 6212 141