gpu_kernels.md

jupytext:
  formats: md:myst
  text_representation:
    extension: .md
    format_name: myst
    format_version: 0.13
    jupytext_version: 1.16.4
kernelspec:
  display_name: Python 3 (ipykernel)
  language: python
  name: python3
mystnb:
  execution_mode: cache
:tags: [remove-cell]

import sympy as sp
import pystencils as ps
import numpy as np
import matplotlib.pyplot as plt
f, g = ps.fields("f, g: float64[3D]")
update = ps.Assignment(f.center(), 2 * g.center())

cfg = ps.CreateKernelConfig(target=ps.Target.CUDA)
kernel = ps.create_kernel(update, cfg)

ps.inspect(kernel)
kernel.threads_range
:tags: [raises-exception]
import cupy as cp

rng = cp.random.default_rng(seed=42)
f_arr = rng.random((16, 16, 16))
g_arr = cp.zeros_like(f_arr)

kfunc = kernel.compile()
kfunc(f=f_arr, g=g_arr)
kfunc.block_size = (16, 8, 8)
kfunc.num_blocks = (1, 2, 2)
:tags: [remove-cell]

def _draw_ispace(f_arr):
    n, m = f_arr.shape
    fig, ax = plt.subplots()

    ax.set_xticks(np.arange(0, m, 4))
    ax.set_yticks(np.arange(0, n, 4))
    # ax.set_xticklabels([])
    # ax.set_yticklabels([])

    ax.set_xticks(np.arange(-.5, m, 1), minor=True)
    ax.set_yticks(np.arange(-.5, n, 1), minor=True)

    ax.grid(which="minor", linewidth=2)
    ax.tick_params(which='minor', bottom=False, left=False)

    ax.imshow(f_arr, interpolation="none", aspect="equal", origin="lower")
:tags: [remove-cell]

f = ps.fields("f: float64[2D]")
assignments = [
    ps.Assignment(f(0), 1)
]
y = ps.DEFAULTS.spatial_counters[0]
cfg = ps.CreateKernelConfig(
    target=ps.Target.CUDA,
    iteration_slice=ps.make_slice[:, y:]
)

kernel = ps.create_kernel(assignments, cfg).compile()
cfg = ps.CreateKernelConfig(
    # ... other options ...
    gpu_indexing=ps.GpuIndexingConfig(
        manual_launch_grid=True
    )
)
kernel.block_size = (8, 8)
kernel.num_blocks = (2, 2)
:tags: [remove-input]
f_arr = cp.zeros((16, 16))
kernel(f=f_arr)
_draw_ispace(cp.asnumpy(f_arr))
kernel.block_size = (4, 4)
kernel.num_blocks = (2, 3)
:tags: [remove-input]
f_arr = cp.zeros((16, 16))
kernel(f=f_arr)
_draw_ispace(cp.asnumpy(f_arr))
.. autosummary::
  :toctree: generated
  :nosignatures:
  :template: autosummary/recursive_class.rst

  pystencils.backend.kernelfunction.GpuKernelFunction
  pystencils.backend.jit.gpu_cupy.CupyKernelWrapper