Sinking large queries to disk

Scaling and Optimizing Data Pipelines with Polars

Liam Brannigan

Data Scientist & Polars Contributor

A large output problem

Diagram showing a lazy query producing a large row-preserving extract that should be written directly to disk.

A cleaned request dataset

requests = pl.scan_parquet("311_Service_Requests.parquet")

clean_requests = (
    requests





)

A cleaned request dataset

requests = pl.scan_parquet("311_Service_Requests.parquet")

clean_requests = (
    requests
    .with_columns(
        pl.col("CREATED_DATE").dt.date(),
        pl.col("WARD").cast(pl.Int16),
        (pl.col("STATUS") == "Completed").alias("IS_COMPLETED"),
    )
)

Collect then write

clean_requests.collect(
    engine="streaming"
).write_parquet(
    "311_requests_clean.parquet"
)

Sinking to Parquet

clean_requests.sink_parquet(
    "311_requests_clean.parquet",


)

Controlling the sink

clean_requests.sink_parquet(
    "311_requests_clean.parquet",
    compression="zstd",
    row_group_size=100_000,
)

Other sink methods

df.sink_csv("output.csv")
df.sink_ndjson("output.ndjson")

Partitioned output

clean_requests.sink_parquet(
    pl.PartitionBy(



    ),

)

Partitioned output

clean_requests.sink_parquet(
    pl.PartitionBy(
        "311_requests_clean/",
        key="CREATED_DATE",
        max_rows_per_file=1_000_000,
    ),

)

Partitioned output

clean_requests.sink_parquet(
    pl.PartitionBy(
        "311_requests_clean/",
        key="CREATED_DATE",
        max_rows_per_file=1_000_000,
    ),
    mkdir=True,
)

Partitioned output

311_requests_clean/
  CREATED_DATE=2025-12-31/
    00000000.parquet
  CREATED_DATE=2026-01-01/
    00000000.parquet

Multi-column partitions

clean_requests.sink_parquet(
    pl.PartitionBy(
        "311_requests_clean/",
        key=["STATUS", "CREATED_DATE"],
    ),
    mkdir=True,
)

Building lazy sinks

internal_sink = clean_requests.sink_parquet(
    "311_requests_internal.parquet",
    lazy=True,
)

Building lazy sinks

internal_sink = clean_requests.sink_parquet(
    "311_requests_internal.parquet",
    lazy=True,
)

public_sink = clean_requests.drop("REQUEST_ID","REPORTER").sink_parquet(
    "311_requests_public.parquet",
    lazy=True,
)

Multiplexing sinks

pl.collect_all(
    [internal_sink, public_sink],
)

Written outputs

311_requests_internal.parquet
311_requests_public.parquet

Custom batch sinks

def send_batch(batch: pl.DataFrame) -> None:
    print(batch.height)
    batch_json = batch.write_json()
    # send batch_json to an API

Custom batch sinks

clean_requests.sink_batches(
    send_batch,
    chunk_size=50_000,
)

Sink workflow

Use sink_parquet() to write large query results straight to disk

Use PartitionBy() to split output into a partitioned dataset

Use lazy sinks with collect_all() to plan and execute several outputs together

Use sink_batches() when each batch should go to a custom function

Isometric view of a data sorting system distributing data into organized partitioned drawers

Let's practice!

Scaling and Optimizing Data Pipelines with Polars