Added non-constant field-sizes vectorization support to outer interface

d09e0966 · Martin Bauer · 4a8a2343 · d09e0966 · d09e0966
Commit d09e0966 authored 7 years ago by Martin Bauer
--- a/creationfunctions.py
+++ b/creationfunctions.py
@@ -86,12 +86,23 @@ Simplifications / Transformations:
 Field size information:
- ``pdf_arr=None``: pass a numpy array here to create kernels with fixed size and create the loop nest according 
+- ``pdf_arr=None``: pass a numpy array here to create kernels with fixed size and create the loop nest according
-    to layout of this array
+  to layout of this array
 - ``field_size=None``: create kernel for fixed field size
 - ``field_layout='c'``:   ``'c'`` or ``'numpy'`` for standard numpy layout, ``'reverse_numpy'`` or ``'f'`` for fortran
  layout, this does not apply when pdf_arr was given, then the same layout as pdf_arr is used
+CPU:
+- ``openmp=True``: Can be a boolean to turn multi threading on/off, or an integer
+  specifying the number of threads. If True is specified OpenMP chooses the number of threads
+- ``vectorization=False``: controls manual vectorization using SIMD instrinsics. If True default vectorization settings
+  are use. Alternatively a dictionary with parameters for vectorize function can be passed. For example
+  ``{'instruction_set': 'avx', 'assume_aligned': True, 'nontemporal': True}``. Nontemporal stores are only used if
+  assume_aligned is also activated.
 GPU:
 - ``target='cpu'``: ``'cpu'`` or ``'gpu'``, last option requires a CUDA enabled graphics card
@@ -100,6 +111,7 @@ GPU:
 - ``gpu_indexing_params='block'``: parameters passed to init function of gpu indexing.
  For ``'block'`` indexing one can e.g. specify the block size ``{'block_size' : (128, 4, 1)}``
 Other:
 - ``openmp=True``: only applicable for cpu simulations. Can be a boolean to turn multi threading on/off, or an integer

--- a/lbstep.py
+++ b/lbstep.py
@@ -19,7 +19,7 @@ class LatticeBoltzmannStep:
                 velocity_data_name=None, density_data_name=None, density_data_index=None,
                 compute_velocity_in_every_step=False, compute_density_in_every_step=False,
                 velocity_input_array_name=None, time_step_order='stream_collide', flag_interface=None,
-                 **method_parameters):
+                 alignment_if_vectorized=64, fixed_loop_sizes=True, **method_parameters):
        # --- Parameter normalization  ---
        if data_handling is not None:
@@ -60,7 +60,7 @@ class LatticeBoltzmannStep:
        alignment = False
        if optimization['target'] == 'cpu' and optimization['vectorization']:
-            alignment = 128
+            alignment = alignment_if_vectorized
        self._data_handling.add_array(self._pdf_arr_name, values_per_cell=q, gpu=self._gpu, layout=layout,
                                      latex_name='src', dtype=field_dtype, alignment=alignment)
@@ -94,7 +94,8 @@ class LatticeBoltzmannStep:
        # --- Kernel creation ---
        if lbm_kernel is None:
            switch_to_symbolic_relaxation_rates_for_omega_adapting_methods(method_parameters, self.kernel_params)
-            optimization['symbolic_field'] = data_handling.fields[self._pdf_arr_name]
+            if fixed_loop_sizes:
+                optimization['symbolic_field'] = data_handling.fields[self._pdf_arr_name]
            method_parameters['field_name'] = self._pdf_arr_name
            method_parameters['temporary_field_name'] = self._tmp_arr_name
            if time_step_order == 'stream_collide':