diff --git a/contrib/c-integer-semantics.py b/contrib/c-integer-semantics.py
index 1cc1a142d9b76725b9b4a700052c877fa2861fbe..38b5b673e872c31e244fa5ecfab3419e2cbe08cb 100644
--- a/contrib/c-integer-semantics.py
+++ b/contrib/c-integer-semantics.py
@@ -139,7 +139,7 @@ def main():
             if cresult != presult:
                 print(a, b, cresult, presult)
 
-    #print(int_mod(552, -918), 552 % -918)
+    # print(int_mod(552, -918), 552 % -918)
     print(cmod(23, -11), 23 % -11)
 
 
diff --git a/examples/python/ispc-stream-harness.py b/examples/python/ispc-stream-harness.py
index 32da802dfaad464c0137db790d19d64cb5557d76..94bb5d9032b58256385e42219e5ebd6566034f77 100644
--- a/examples/python/ispc-stream-harness.py
+++ b/examples/python/ispc-stream-harness.py
@@ -88,16 +88,16 @@ def main():
                 [("tasksys.cpp", tasksys_source)],
                 cxx_options=["-g", "-fopenmp", "-DISPC_USE_OMP"],
                 ispc_options=([
-                    #"-g", "--no-omit-frame-pointer",
+                    # "-g", "--no-omit-frame-pointer",
                     "--target=avx2-i32x8",
                     "--opt=force-aligned-memory",
                     "--opt=disable-loop-unroll",
-                    #"--opt=fast-math",
-                    #"--opt=disable-fma",
+                    # "--opt=fast-math",
+                    # "--opt=disable-fma",
                     ]
                     + (["--addressing=64"] if INDEX_DTYPE == np.int64 else [])
                     ),
-                #ispc_bin="/home/andreask/pack/ispc-v1.9.0-linux/ispc",
+                # ispc_bin="/home/andreask/pack/ispc-v1.9.0-linux/ispc",
                 quiet=False,
                 )
 
diff --git a/loopy/check.py b/loopy/check.py
index 3f65ad7ab4a62363c130efefb6e0ab2ea2ac755b..9c6e4f9516685ef43730dd25068950ebf0790333 100644
--- a/loopy/check.py
+++ b/loopy/check.py
@@ -1847,9 +1847,9 @@ def check_implemented_domains(kernel, implemented_domains, code=None):
                 pt = diff_set.sample_point()
                 assert not pt.is_void()
 
-                #pt_set = isl.Set.from_point(pt)
-                #lines.append("point implemented: %s" % (pt_set <= insn_impl_domain))
-                #lines.append("point desired: %s" % (pt_set <= desired_domain))
+                # pt_set = isl.Set.from_point(pt)
+                # lines.append("point implemented: %s" % (pt_set <= insn_impl_domain))
+                # lines.append("point desired: %s" % (pt_set <= desired_domain))
 
                 iname_to_dim = pt.get_space().get_var_dict()
                 point_axes = []
diff --git a/loopy/kernel/creation.py b/loopy/kernel/creation.py
index 0f7e783a3381eb2828e7ebc308e6f467842b6b13..10aab71f1ae2cc6f51a637ae4cff762e9850459c 100644
--- a/loopy/kernel/creation.py
+++ b/loopy/kernel/creation.py
@@ -902,7 +902,7 @@ def parse_instructions(instructions, defines):
 
             insn_options_stack.append(options)
 
-            #add to the if_stack
+            # add to the if_stack
             if_options = options.copy()
             if_options["insn_predicates"] = options["predicates"]
             if_predicates_stack.append(if_options)
@@ -953,7 +953,7 @@ def parse_instructions(instructions, defines):
                     | additional_preds
                     )
             if_options["predicates"] = additional_preds
-            #hold on to this for comparison / stack popping later
+            # hold on to this for comparison / stack popping later
             if_options["insn_predicates"] = options["predicates"]
 
             insn_options_stack.append(options)
@@ -967,7 +967,7 @@ def parse_instructions(instructions, defines):
 
         if insn == "end":
             obj = insn_options_stack.pop()
-            #if this object is the end of an if statement
+            # if this object is the end of an if statement
             if obj["predicates"] == if_predicates_stack[-1]["insn_predicates"] and\
                     if_predicates_stack[-1]["insn_predicates"] and\
                     obj["within_inames"] == if_predicates_stack[-1]["within_inames"]:
diff --git a/loopy/library/reduction.py b/loopy/library/reduction.py
index c4374eee1e7d1e65851af6099614760241d1c236..648b7a197a0d23e4a4742939983928b47de32528 100644
--- a/loopy/library/reduction.py
+++ b/loopy/library/reduction.py
@@ -179,10 +179,10 @@ def get_le_neutral(dtype):
     if dtype.numpy_dtype.kind == "f":
         # OpenCL 1.2, section 6.12.2
         if dtype.numpy_dtype.itemsize == 4:
-            #float
+            # float
             return var("INFINITY")
         elif dtype.numpy_dtype.itemsize == 8:
-            #double
+            # double
             return var("HUGE_VAL")
 
     elif dtype.numpy_dtype.kind == "i":
@@ -210,10 +210,10 @@ def get_ge_neutral(dtype):
     if dtype.numpy_dtype.kind == "f":
         # OpenCL 1.2, section 6.12.2
         if dtype.numpy_dtype.itemsize == 4:
-            #float
+            # float
             return -var("INFINITY")
         elif dtype.numpy_dtype.itemsize == 8:
-            #double
+            # double
             return -var("HUGE_VAL")
     elif dtype.numpy_dtype.kind == "i":
         # OpenCL 1.1, section 6.11.3
diff --git a/loopy/preprocess.py b/loopy/preprocess.py
index f6f42be59ecd68863888ec5e60517524bfed4767..c787cedbfe01d3283f4b1230efdb91f7cd77c06a 100644
--- a/loopy/preprocess.py
+++ b/loopy/preprocess.py
@@ -476,7 +476,7 @@ def check_atomic_loads(kernel):
             accessed_atomic_vars = (insn.dependency_names() & atomicity_candidates)\
                 - {insn.assignee_var_names()[0]}
             if not accessed_atomic_vars <= atomic_accesses:
-                #if we're missing some
+                # if we're missing some
                 missed = accessed_atomic_vars - atomic_accesses
                 for x in missed:
                     if {x} & atomicity_candidates:
diff --git a/loopy/schedule/__init__.py b/loopy/schedule/__init__.py
index a2c82f1253a6e8393e8f35f29427b5fcb86fa849..136f0e6014adf1ccce94265a2c8d71cfc37a5441 100644
--- a/loopy/schedule/__init__.py
+++ b/loopy/schedule/__init__.py
@@ -908,8 +908,8 @@ def _generate_loop_schedules_internal(
         if debug.debug_length == len(debug.longest_rejected_schedule):
             print("WHY IS THIS A DEAD-END SCHEDULE?")
 
-    #if len(schedule) == 2:
-        #from pudb import set_trace; set_trace()
+    # if len(schedule) == 2:
+        # from pudb import set_trace; set_trace()
 
     # }}}
 
diff --git a/loopy/target/c/c_execution.py b/loopy/target/c/c_execution.py
index b1685cad1781db6e11f597edf7a3029f74461775..ebf2fd611225bc1415cca3a82ba68b140dc91f58 100644
--- a/loopy/target/c/c_execution.py
+++ b/loopy/target/c/c_execution.py
@@ -152,7 +152,7 @@ class CExecutionWrapperGenerator(ExecutionWrapperGeneratorBase):
 
         gen("{} = {}.strides".format(strify(expected_strides), arg.name))
 
-        #check strides
+        # check strides
         if not skip_arg_checks:
             strides_check_expr = self.get_strides_check_expr(
                     [strify(s) for s in sym_shape],
diff --git a/loopy/target/execution.py b/loopy/target/execution.py
index dcf162ae7ec3553b94dcdd3808226ca601fb016d..fe0c7442b36951b77ad7d5ad618bc9b4d335eebc 100644
--- a/loopy/target/execution.py
+++ b/loopy/target/execution.py
@@ -695,7 +695,7 @@ class ExecutionWrapperGeneratorBase(ABC):
         self.generate_value_arg_check(gen, program[entrypoint], kai)
         args = self.generate_arg_setup(gen, program[entrypoint], kai)
 
-        #FIXME: should we make this as a dict as well.
+        # FIXME: should we make this as a dict as well.
         host_program_name = codegen_result.host_programs[entrypoint].name
 
         self.generate_invocation(gen, program[entrypoint], kai,
diff --git a/loopy/target/opencl.py b/loopy/target/opencl.py
index a2ac18f1f2f078e619f0086442b7686a5f401465..38426323003c3ca1119df073ad0c2c091de0e785 100644
--- a/loopy/target/opencl.py
+++ b/loopy/target/opencl.py
@@ -257,7 +257,7 @@ class OpenCLCallable(ScalarCallable):
 
             for id in arg_id_to_dtype:
                 if not -1 <= id <= 1:
-                    #FIXME: Do we need to raise here?:
+                    # FIXME: Do we need to raise here?:
                     #   The pattern we generally follow is that if we don't find
                     #   a function, then we just return None
                     raise LoopyError("%s can take only two arguments." % name)
diff --git a/loopy/target/pyopencl_execution.py b/loopy/target/pyopencl_execution.py
index b65bdc66ee832827a2c4fe3cf7dd0c1bc54d715a..02dbcfc899138549fe3650d69e3ab07363ddc9ef 100644
--- a/loopy/target/pyopencl_execution.py
+++ b/loopy/target/pyopencl_execution.py
@@ -313,7 +313,7 @@ class PyOpenCLExecutor(ExecutorBase):
         dev_code = codegen_result.device_code()
 
         if t_unit[self.entrypoint].options.write_code:
-            #FIXME: redirect to "translation unit" level option as well.
+            # FIXME: redirect to "translation unit" level option as well.
             output = dev_code
             if self.t_unit[self.entrypoint].options.allow_terminal_colors:
                 output = get_highlighted_code(output)
@@ -327,13 +327,13 @@ class PyOpenCLExecutor(ExecutorBase):
                     outf.write(output)
 
         if t_unit[self.entrypoint].options.edit_code:
-            #FIXME: redirect to "translation unit" level option as well.
+            # FIXME: redirect to "translation unit" level option as well.
             from pytools import invoke_editor
             dev_code = invoke_editor(dev_code, "code.cl")
 
         import pyopencl as cl
 
-        #FIXME: redirect to "translation unit" level option as well.
+        # FIXME: redirect to "translation unit" level option as well.
         cl_program = (
                 cl.Program(self.context, dev_code)
                 .build(options=t_unit[self.entrypoint].options.build_options))
diff --git a/loopy/transform/data.py b/loopy/transform/data.py
index cb5fe829d2a5b847d5b17e7dcf122e2b62ca0e3f..87cb7befb1b9e4ab1a1c9b62f168b5d1874cfa38 100644
--- a/loopy/transform/data.py
+++ b/loopy/transform/data.py
@@ -654,7 +654,7 @@ def set_argument_order(kernel, arg_names):
     :arg arg_names: A list (or comma-separated string) or argument
         names. All arguments must be in this list.
     """
-    #FIXME: @inducer -- shoulld this only affect the root kernel, or should it
+    # FIXME: @inducer -- shoulld this only affect the root kernel, or should it
     # take a within?
 
     if isinstance(arg_names, str):
diff --git a/proto-tests/test_fem_assembly.py b/proto-tests/test_fem_assembly.py
index 2bee025f11c5d2e4149a9a6738f2c88a2ebb67ab..0f4e95b4715465a30596f3761ee88cc9e541d5b3 100644
--- a/proto-tests/test_fem_assembly.py
+++ b/proto-tests/test_fem_assembly.py
@@ -123,7 +123,7 @@ def test_laplacian_stiffness(ctx_factory):
                 loop_priority=loop_prio)
         kernel_gen = lp.check_kernels(kernel_gen, dict(Nc=Nc))
 
-        #print lp.preprocess_kernel(var_knl)
+        # print lp.preprocess_kernel(var_knl)
 
         lp.auto_test_vs_ref(seq_knl, ctx, kernel_gen,
                 op_count=0, op_label="GFlops",
diff --git a/proto-tests/test_sem.py b/proto-tests/test_sem.py
index 56a0d5e2569ed9722f09c4536d1ad60958badf67..5155a001165305333b0634a220de79be839bcc76 100644
--- a/proto-tests/test_sem.py
+++ b/proto-tests/test_sem.py
@@ -56,11 +56,11 @@ def test_laplacian(ctx_factory):
             ],
             name="semlap", assumptions="K>=1")
 
-    #print lp.preprocess_kernel(knl, cse_ok=True)
-    #1/0
+    # print lp.preprocess_kernel(knl, cse_ok=True)
+    # 1/0
     #
-    #print knl
-    #1/0
+    # print knl
+    # 1/0
     knl = lp.realize_cse(knl, "urf", np.float32, ["o1"])
     knl = lp.realize_cse(knl, "usf", np.float32, ["o2"])
     knl = lp.realize_cse(knl, "utf", np.float32, ["o3"])
@@ -76,7 +76,7 @@ def test_laplacian(ctx_factory):
     if 0:
         pass
         #seq_knl = lp.add_prefetch(knl, "G", ["gi", "m", "j", "k"], "G[gi,e,m,j,k]", default_tag="l.auto")  # noqa
-        #seq_knl = lp.add_prefetch(seq_knl, "D", ["m", "j"], default_tag="l.auto")
+        # seq_knl = lp.add_prefetch(seq_knl, "D", ["m", "j"], default_tag="l.auto")
         #seq_knl = lp.add_prefetch(seq_knl, "u", ["i", "j", "k"], "u[*,i,j,k]", default_tag="l.auto")  # noqa
     else:
         seq_knl = knl
@@ -87,11 +87,11 @@ def test_laplacian(ctx_factory):
     knl = lp.add_prefetch(knl, "D", ["m", "j"], default_tag="l.auto")
     #knl = lp.add_prefetch(knl, "u", ["i", "j", "k"], "u[*,i,j,k]", default_tag="l.auto")  # noqa
 
-    #knl = lp.split_iname(knl, "e_inner", 4, inner_tag="ilp")
+    # knl = lp.split_iname(knl, "e_inner", 4, inner_tag="ilp")
 
-    #print seq_knl
-    #print lp.preprocess_kernel(knl)
-    #1/0
+    # print seq_knl
+    # print lp.preprocess_kernel(knl)
+    # 1/0
 
     knl = lp.tag_inames(knl, dict(i="l.0", j="l.1"))
 
@@ -164,11 +164,11 @@ def test_laplacian_lmem(ctx_factory):
             default_tag="l.auto")
     knl = lp.add_prefetch(knl, "u", ["i", "j", "k"], "u[*,i,j,k]",
             default_tag="l.auto")
-    #knl = lp.split_iname(knl, "e_inner", 4, inner_tag="ilp")
+    # knl = lp.split_iname(knl, "e_inner", 4, inner_tag="ilp")
 
-    #print seq_knl
-    #print lp.preprocess_kernel(knl)
-    #1/0
+    # print seq_knl
+    # print lp.preprocess_kernel(knl)
+    # 1/0
 
     knl = lp.tag_inames(knl, dict(i="l.0", j="l.1"))
 
@@ -240,8 +240,8 @@ def test_laplacian_lmem_ilp(ctx_factory):
     knl = lp.add_prefetch(knl, "D", ["m", "j"],
             default_tag="l.auto")
 
-    #print seq_knl
-    #1/0
+    # print seq_knl
+    # 1/0
 
     knl = lp.tag_inames(knl, dict(i="l.0", j="l.1"))
 
@@ -447,7 +447,7 @@ def test_advect_dealias(ctx_factory):
     knl = lp.tag_inames(knl, dict(i="l.0", j="l.1"))
 
     print(knl)
-    #1/0
+    # 1/0
 
     kernel_gen = lp.generate_loop_schedules(knl)
     kernel_gen = lp.check_kernels(kernel_gen, dict(K=1000), kill_level_min=5)
@@ -508,7 +508,7 @@ def test_interp_diff(ctx_factory):
     knl = lp.tag_inames(knl, dict(i="l.0", j="l.1"))
 
     print(knl)
-    #1/0
+    # 1/0
 
     kernel_gen = lp.generate_loop_schedules(knl)
     kernel_gen = lp.check_kernels(kernel_gen, dict(K=1000), kill_level_min=5)
diff --git a/proto-tests/test_sem_tim.py b/proto-tests/test_sem_tim.py
index a4af60a958e8a3f7ce4d02d2896ebfeb0229b9aa..4bf448fc1d2890e0811ad1b8f777ebf935b9d843 100644
--- a/proto-tests/test_sem_tim.py
+++ b/proto-tests/test_sem_tim.py
@@ -56,11 +56,11 @@ def test_laplacian(ctx_factory):
             ],
             name="semlap", assumptions="K>=1")
 
-    #print(lp.preprocess_kernel(knl, cse_ok=True))
-    #1/0
+    # print(lp.preprocess_kernel(knl, cse_ok=True))
+    # 1/0
     #
-    #print(knl)
-    #1/0
+    # print(knl)
+    # 1/0
     knl = lp.realize_cse(knl, "urf", np.float32, ["o1"])
     knl = lp.realize_cse(knl, "usf", np.float32, ["o2"])
     knl = lp.realize_cse(knl, "utf", np.float32, ["o3"])
@@ -76,7 +76,7 @@ def test_laplacian(ctx_factory):
     if 0:
         pass
         #seq_knl = lp.add_prefetch(knl, "G", ["gi", "m", "j", "k"], "G[gi,e,m,j,k]", default_tag="l.auto")  # noqa
-        #seq_knl = lp.add_prefetch(seq_knl, "D", ["m", "j"], default_tag="l.auto")
+        # seq_knl = lp.add_prefetch(seq_knl, "D", ["m", "j"], default_tag="l.auto")
         #seq_knl = lp.add_prefetch(seq_knl, "u", ["i", "j", "k"], "u[*,i,j,k]", default_tag="l.auto")  # noqa
     else:
         seq_knl = knl
@@ -89,11 +89,11 @@ def test_laplacian(ctx_factory):
             default_tag="l.auto")
     #knl = lp.add_prefetch(knl, "u", ["i", "j", "k"], "u[*,i,j,k]", default_tag="l.auto")  # noqa
 
-    #knl = lp.split_iname(knl, "e_inner", 4, inner_tag="ilp")
+    # knl = lp.split_iname(knl, "e_inner", 4, inner_tag="ilp")
 
-    #print(seq_knl)
-    #print(lp.preprocess_kernel(knl))
-    #1/0
+    # print(seq_knl)
+    # print(lp.preprocess_kernel(knl))
+    # 1/0
 
     knl = lp.tag_inames(knl, dict(i="l.0", j="l.1"))
 
@@ -108,7 +108,7 @@ def test_laplacian(ctx_factory):
             parameters={"K": K}, print_seq_code=True)
 
 
-#TW: start here
+# TW: start here
 def test_laplacian_lmem(ctx_factory):
     dtype = np.float32
     ctx = ctx_factory()
@@ -170,15 +170,15 @@ def test_laplacian_lmem(ctx_factory):
 
     #knl = lp.add_prefetch(knl, "G", [2,3,4], default_tag="l.auto") # axis/argument indices on G  # noqa
     #knl = lp.add_prefetch(knl, "G", ["i", "j", "m", "k"], default_tag="l.auto") # axis/argument indices on G  # noqa
-    #print(knl)
-    #1/0
+    # print(knl)
+    # 1/0
 
-    #knl = lp.split_iname(knl, "e_inner", 4, inner_tag="ilp")
+    # knl = lp.split_iname(knl, "e_inner", 4, inner_tag="ilp")
 #    knl = lp.join_dimensions(knl, ["i", "j"], "i_and_j")
 
-    #print(seq_knl)
-    #print(lp.preprocess_kernel(knl))
-    #1/0
+    # print(seq_knl)
+    # print(lp.preprocess_kernel(knl))
+    # 1/0
 
 # TW: turned this off since it generated:
 # ValueError: cannot tag 'i_and_j'--not known
@@ -248,8 +248,8 @@ def test_laplacian_lmem_ilp(ctx_factory):
     knl = lp.add_prefetch(knl, "G", ["m", "i", "j", "k", "e_inner_inner"], default_tag="l.auto")  # noqa
     knl = lp.add_prefetch(knl, "D", ["m", "j"], default_tag="l.auto")
 
-    #print(seq_knl)
-    #1/0
+    # print(seq_knl)
+    # 1/0
 
     knl = lp.tag_inames(knl, dict(i="l.0", j="l.1"))
 
@@ -455,7 +455,7 @@ def test_advect_dealias(ctx_factory):
     knl = lp.tag_inames(knl, dict(i="l.0", j="l.1"))
 
     print(knl)
-    #1/0
+    # 1/0
 
     kernel_gen = lp.generate_loop_schedules(knl)
     kernel_gen = lp.check_kernels(kernel_gen, dict(K=1000), kill_level_min=5)
@@ -516,7 +516,7 @@ def test_interp_diff(ctx_factory):
     knl = lp.tag_inames(knl, dict(i="l.0", j="l.1"))
 
     print(knl)
-    #1/0
+    # 1/0
 
     kernel_gen = lp.generate_loop_schedules(knl)
     kernel_gen = lp.check_kernels(kernel_gen, dict(K=1000), kill_level_min=5)
diff --git a/pyproject.toml b/pyproject.toml
index a3d19c2cfde6b148415451abb07b5e2c62c4a6bb..5f1403f34f61811e802a6156742049fcb172fb5b 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -32,7 +32,6 @@ extend-ignore = [
     # FIXME
     "NPY002", # numpy rng
     "C408", # unnecssary dict() -> literal
-    "E265", # block comment should start with
     "F841", # local variable unused
 ]
 
diff --git a/test/test_apps.py b/test/test_apps.py
index 6b6b65bf4616f0cb234fbe6e314a2f1058b9c3cf..cbe3e76e8e04a886c6a40f0e995c8cb06095cff6 100644
--- a/test/test_apps.py
+++ b/test/test_apps.py
@@ -86,7 +86,7 @@ def test_convolution(ctx_factory):
     ref_knl = knl
 
     def variant_0(knl):
-        #knl = lp.split_iname(knl, "im_x", 16, inner_tag="l.0")
+        # knl = lp.split_iname(knl, "im_x", 16, inner_tag="l.0")
         knl = lp.prioritize_loops(knl, "iimg,im_x,im_y,ifeat,f_x,f_y")
         return knl
 
@@ -108,8 +108,8 @@ def test_convolution(ctx_factory):
         return knl
 
     for variant in [
-            #variant_0,
-            #variant_1,
+            # variant_0,
+            # variant_1,
             variant_2
             ]:
         lp.auto_test_vs_ref(ref_knl, ctx, variant(knl),
@@ -157,7 +157,7 @@ def test_convolution_with_nonzero_base(ctx_factory):
     f_w = 3
 
     def variant_0(knl):
-        #knl = lp.split_iname(knl, "im_x", 16, inner_tag="l.0")
+        # knl = lp.split_iname(knl, "im_x", 16, inner_tag="l.0")
         knl = lp.prioritize_loops(knl, "iimg,im_x,im_y,ifeat,f_x,f_y")
         return knl
 
@@ -357,7 +357,7 @@ def test_stencil(ctx_factory):
         return knl
 
     for variant in [
-            #variant_1,
+            # variant_1,
             variant_2,
             ]:
         lp.auto_test_vs_ref(ref_knl, ctx, variant(knl),
@@ -513,7 +513,7 @@ def test_fd_demo():
         "result[i+1,j+1] = u[i + 1, j + 1]**2 + -1 + (-4)*u[i + 1, j + 1] \
                 + u[i + 1 + 1, j + 1] + u[i + 1 + -1, j + 1] \
                 + u[i + 1, j + 1 + 1] + u[i + 1, j + 1 + -1]")
-    #assumptions="n mod 16=0")
+    # assumptions="n mod 16=0")
     knl = lp.split_iname(knl,
             "i", 16, outer_tag="g.1", inner_tag="l.1")
     knl = lp.split_iname(knl,
@@ -523,8 +523,8 @@ def test_fd_demo():
             fetch_bounding_box=True,
             default_tag="l.auto")
 
-    #n = 1000
-    #u = cl.clrandom.rand(queue, (n+2, n+2), dtype=np.float32)
+    # n = 1000
+    # u = cl.clrandom.rand(queue, (n+2, n+2), dtype=np.float32)
 
     knl = lp.set_options(knl, write_code=True)
     knl = lp.add_and_infer_dtypes(knl, dict(u=np.float32))
@@ -604,7 +604,7 @@ def test_poisson_fem(ctx_factory):
             ))
 
     for variant in [
-            #variant_1,
+            # variant_1,
             variant_2
             ]:
         knl = variant(knl)
diff --git a/test/test_dg.py b/test/test_dg.py
index 318b4c3698f1209893b9b71daff4d2e053d5a351..125e5b9a62c8cc973a6fc3ae65a56f3128dff721 100644
--- a/test/test_dg.py
+++ b/test/test_dg.py
@@ -36,7 +36,7 @@ from loopy.version import LOOPY_USE_LANGUAGE_VERSION_2018_2  # noqa
 
 
 def test_dg_volume(ctx_factory):
-    #logging.basicConfig(level=logging.DEBUG)
+    # logging.basicConfig(level=logging.DEBUG)
 
     dtype = np.float32
     dtype4 = cl.array.vec.float4
@@ -168,7 +168,7 @@ def test_dg_volume(ctx_factory):
     for variant in variants:
         lp.auto_test_vs_ref(
                 seq_knl, ctx, variant(knl), parameters=parameters_dict,
-                #codegen_kwargs=dict(with_annotation=True)
+                # codegen_kwargs=dict(with_annotation=True)
                 )
 
 
diff --git a/test/test_diff.py b/test/test_diff.py
index 2498170736216fb4b7f7fa7d4e352dd49637c583..f06618b9f14ca1f9cfc9eb5d33e8157d08bd1f65 100644
--- a/test/test_diff.py
+++ b/test/test_diff.py
@@ -63,8 +63,8 @@ def test_diff(ctx_factory):
     knl = lp.fix_parameters(knl, n=50)
 
     from loopy.transform.diff import diff_kernel
-    #FIXME Is this the correct interface. Does it make sense to take the entire
-    #translation unit?
+    # FIXME Is this the correct interface. Does it make sense to take the entire
+    # translation unit?
     dknl, diff_map = diff_kernel(knl["diff"], "z", "x")
     dknl = knl.with_kernel(dknl)
     dknl = lp.remove_unused_arguments(dknl)
diff --git a/test/test_domain.py b/test/test_domain.py
index 8f29295066189f1c0ccf8ea11a910e98c2fa05de..9f0bb4158cac1be6798e13f67ed482980e3f1c64 100644
--- a/test/test_domain.py
+++ b/test/test_domain.py
@@ -301,8 +301,8 @@ def test_equality_constraints(ctx_factory):
 
     knl = lp.add_inames_to_insn(knl, "j_inner, j_outer", "id:set_b")
 
-    #print(knl)
-    #print(knl.domains[0].detect_equalities())
+    # print(knl)
+    # print(knl.domains[0].detect_equalities())
 
     lp.auto_test_vs_ref(seq_knl, ctx, knl,
             parameters=dict(n=n), print_ref_code=True)
diff --git a/test/test_expression.py b/test/test_expression.py
index 9af21cab814bcc855f862a1cfe60c8bcbf55e186..16b1e1bd37ba3041b20581db4ca0e67df06fab9c 100644
--- a/test/test_expression.py
+++ b/test/test_expression.py
@@ -291,7 +291,7 @@ def test_fuzz_expression_code_gen(ctx_factory, expr_type, random_seed, target_cl
         var_name = "expr%d" % i
 
         # print(expr)
-        #assert_parse_roundtrip(expr)
+        # assert_parse_roundtrip(expr)
 
         if expr_type in ["int", "int_nonneg"]:
             result_type_iinfo = np.iinfo(np.int32)
@@ -451,8 +451,8 @@ def test_indexof_vec(ctx_factory):
     knl = lp.set_options(knl, write_code=True)
 
     (evt, (out,)) = knl(queue)
-    #out = out.get()
-    #assert np.array_equal(out.ravel(order="C"), np.arange(25))
+    # out = out.get()
+    # assert np.array_equal(out.ravel(order="C"), np.arange(25))
 
 
 def test_is_expression_equal():
diff --git a/test/test_linalg.py b/test/test_linalg.py
index d31185ae0330479b2275359226ba0dfb0f314c62..ce43f19dad101e95b37ba638c833641c31fd597a 100644
--- a/test/test_linalg.py
+++ b/test/test_linalg.py
@@ -113,7 +113,7 @@ def test_axpy(ctx_factory):
                     outer_tag="unr", inner_tag="l.0")
             return knl
 
-        #for variant in [ variant_gpu]:
+        # for variant in [ variant_gpu]:
         for variant in [variant_cpu, variant_gpu]:
             lp.auto_test_vs_ref(seq_knl, ctx, variant(knl),
                     op_count=[np.dtype(dtype).itemsize*n*3/1e9],
@@ -264,8 +264,8 @@ def test_funny_shape_matrix_mul(ctx_factory):
             outer_tag="g.1", inner_tag="l.0")
     knl = lp.split_iname(knl, "k", 32)
 
-    #knl = lp.add_prefetch(knl, "a", ["k_inner", "i_inner"], default_tag="l.auto")
-    #knl = lp.add_prefetch(knl, "b", ["j_inner", "k_inner"], default_tag="l.auto")
+    # knl = lp.add_prefetch(knl, "a", ["k_inner", "i_inner"], default_tag="l.auto")
+    # knl = lp.add_prefetch(knl, "b", ["j_inner", "k_inner"], default_tag="l.auto")
     knl = lp.extract_subst(knl, "a_acc", "a[i1,i2]", parameters="i1, i2")
     knl = lp.extract_subst(knl, "b_acc", "b[i1,i2]", parameters="i1, i2")
     knl = lp.precompute(knl, "a_acc", "k_inner,i_inner",
@@ -285,7 +285,7 @@ def test_rank_one(ctx_factory):
     ctx = ctx_factory()
     order = "F"
 
-    #n = int(get_suitable_size(ctx)**(2.7/2))
+    # n = int(get_suitable_size(ctx)**(2.7/2))
     n = 16**3
 
     knl = lp.make_kernel(
@@ -442,7 +442,7 @@ def test_intel_matrix_mul(ctx_factory):
     knl = lp.split_iname(knl, "j", j_reg*j_chunks, outer_tag="g.1")
     knl = lp.split_iname(knl, "j_inner", j_reg, outer_tag="l.1", inner_tag="ilp")
     knl = lp.split_iname(knl, "k", 16)
-    #knl = lp.split_iname(knl, "k_inner", 8, outer_tag="unr")
+    # knl = lp.split_iname(knl, "k_inner", 8, outer_tag="unr")
 
     knl = lp.add_prefetch(knl, "a", ["i_inner_inner", "k_inner", "i_inner_outer"],
             fetch_outer_inames="i_outer, j_outer, k_outer",
@@ -452,12 +452,12 @@ def test_intel_matrix_mul(ctx_factory):
             default_tag="l.auto")
 
     # FIXME: Grouped prefetch
-    #knl = lp.add_prefetch(knl, "a", ["k_inner", ("i_inner_inner", "i_inner_outer")],
+    # knl = lp.add_prefetch(knl, "a", ["k_inner", ("i_inner_inner", "i_inner_outer")],
     #           default_tag="l.auto")
-    #knl = lp.add_prefetch(knl, "b",
+    # knl = lp.add_prefetch(knl, "b",
     # ["k_inner", ("j_inner_inner", "j_inner_outer"),], default_tag="l.auto")
 
-    #hints=["k_outer", "k_inner_outer", "k_inner_inner"]
+    # hints=["k_outer", "k_inner_outer", "k_inner_inner"]
 
     lp.auto_test_vs_ref(seq_knl, ctx, knl,
             op_count=[2*n**3/1e9], op_label=["GFlops"],
@@ -506,9 +506,9 @@ def test_magma_fermi_matrix_mul(ctx_factory):
     knl = lp.split_iname(knl, "k", 16)
     knl = lp.split_iname(knl, "k_inner", 8, outer_tag="unr")
     # FIXME
-    #knl = lp.add_prefetch(knl, "a", ["k_inner", "i_inner_inner", "i_inner_outer"],
+    # knl = lp.add_prefetch(knl, "a", ["k_inner", "i_inner_inner", "i_inner_outer"],
     #           default_tag="l.auto")
-    #knl = lp.add_prefetch(knl, "b",
+    # knl = lp.add_prefetch(knl, "b",
     #    ["k_inner", ("j_inner_inner", "j_inner_outer"),], default_tag="l.auto")
 
     lp.auto_test_vs_ref(seq_knl, ctx, knl,
diff --git a/test/test_loopy.py b/test/test_loopy.py
index 5637c118746da4d1bbfb54edc693864fa7e047ce..00e29b91e738593b204c67d37b60d470c9dc5b8c 100644
--- a/test/test_loopy.py
+++ b/test/test_loopy.py
@@ -79,7 +79,7 @@ def test_globals_decl_once_with_multi_subprogram(ctx_factory):
 
 
 def test_complicated_subst(ctx_factory):
-    #ctx = ctx_factory()
+    # ctx = ctx_factory()
 
     knl = lp.make_kernel(
             "{[i]: 0<=i<n}",
@@ -607,7 +607,7 @@ def test_vector_types(ctx_factory, vec_len):
 
 
 def test_conditional(ctx_factory):
-    #logging.basicConfig(level=logging.DEBUG)
+    # logging.basicConfig(level=logging.DEBUG)
     ctx = ctx_factory()
 
     knl = lp.make_kernel(
@@ -1450,7 +1450,7 @@ def test_global_temporary(ctx_factory):
     assert len(cgr.device_programs) == 2
 
     print(cgr.device_code())
-    #print(cgr.host_code())
+    # print(cgr.host_code())
 
     lp.auto_test_vs_ref(ref_knl, ctx, knl, parameters=dict(n=5))
 
@@ -1882,18 +1882,18 @@ def test_header_extract():
 
     knl = lp.fix_parameters(knl, n=200)
 
-    #test C
+    # test C
     cknl = knl.copy(target=lp.CTarget())
     assert str(lp.generate_header(cknl)[0]) == (
             "void loopy_kernel(float *__restrict__ T);")
 
-    #test CUDA
+    # test CUDA
     cuknl = knl.copy(target=lp.CudaTarget())
     assert str(lp.generate_header(cuknl)[0]) == (
             'extern "C" __global__ void __launch_bounds__(1) '
             "loopy_kernel(float *__restrict__ T);")
 
-    #test OpenCL
+    # test OpenCL
     oclknl = knl.copy(target=lp.PyOpenCLTarget())
     assert str(lp.generate_header(oclknl)[0]) == (
             "__kernel void __attribute__ ((reqd_work_group_size(1, 1, 1))) "
@@ -2057,7 +2057,7 @@ def test_tight_loop_bounds_codegen():
     knl = lp.split_iname(knl, "i", 5, inner_tag="l.0", outer_tag="g.0")
 
     cgr = lp.generate_code_v2(knl)
-    #print(cgr.device_code())
+    # print(cgr.device_code())
 
     for_loop = \
         "for (int j = " \
diff --git a/test/test_nbody.py b/test/test_nbody.py
index 3a8d509d6dcfba8eb7132801799dd8dd3bdf992e..b9e2e6ff8c3261a2ead70249ffbdc1766e33c665 100644
--- a/test/test_nbody.py
+++ b/test/test_nbody.py
@@ -85,8 +85,8 @@ def test_nbody(ctx_factory):
     n = 3000
 
     for variant in [
-            #variant_1,
-            #variant_cpu,
+            # variant_1,
+            # variant_cpu,
             variant_gpu
             ]:
         variant_knl = variant(knl)
diff --git a/test/test_numa_diff.py b/test/test_numa_diff.py
index 43f754a1b4d2a6c615fee7b27d117e352eabed62..84e492f3dda555d20a8f3d3954ca16aced6564e2 100644
--- a/test/test_numa_diff.py
+++ b/test/test_numa_diff.py
@@ -69,7 +69,7 @@ def test_gnuma_horiz_kernel(ctx_factory, ilp_multiple, Nq, opt_level):  # noqa
     hsv_r = lp.tag_instructions(hsv_r, "rknl")
     hsv_s = lp.tag_instructions(hsv_s, "sknl")
     hsv = lp.fuse_kernels([hsv_r, hsv_s], ["_r", "_s"])
-    #hsv = hsv_s
+    # hsv = hsv_s
     hsv = lp.add_nosync(hsv, "any", "writes:rhsQ", "writes:rhsQ", force=True)
 
     from gnuma_loopy_transforms import (
@@ -89,7 +89,7 @@ def test_gnuma_horiz_kernel(ctx_factory, ilp_multiple, Nq, opt_level):  # noqa
         hsv = set_q_storage_format(hsv, name)
 
     hsv = set_D_storage_format(hsv)
-    #hsv = lp.add_prefetch(hsv, "volumeGeometricFactors")
+    # hsv = lp.add_prefetch(hsv, "volumeGeometricFactors")
 
     ref_hsv = hsv
 
diff --git a/test/test_sem_reagan.py b/test/test_sem_reagan.py
index 901affc57a63a45f4147940cfc0b9c03e57522d0..4e89b0a92418ae07bed0d6dc3da364685d975471 100644
--- a/test/test_sem_reagan.py
+++ b/test/test_sem_reagan.py
@@ -51,7 +51,7 @@ def test_tim2d(ctx_factory):
                 "ur(a,b) := simul_reduce(sum, o, D[a,o]*u[e,o,b])",
                 "us(a,b) := simul_reduce(sum, o2, D[b,o2]*u[e,a,o2])",
 
-                #"Gu(mat_entry,a,b) := G[mat_entry,e,m,j]*ur(m,j)",
+                # "Gu(mat_entry,a,b) := G[mat_entry,e,m,j]*ur(m,j)",
 
                 "Gux(a,b) := G$x[0,e,a,b]*ur(a,b)+G$x[1,e,a,b]*us(a,b)",
                 "Guy(a,b) := G$y[1,e,a,b]*ur(a,b)+G$y[2,e,a,b]*us(a,b)",
diff --git a/test/test_statistics.py b/test/test_statistics.py
index 75dac2e55308be577fa25e6ff16ced8f74dc6e20..4b9cb8f63c686cbf467ea87472ec85e4aa69f50b 100644
--- a/test/test_statistics.py
+++ b/test/test_statistics.py
@@ -1371,7 +1371,7 @@ def test_summations_and_filters():
 
     op_map = lp.get_op_map(knl, subgroup_size=SGS, count_redundant_work=True,
                            count_within_subscripts=True)
-    #for k, v in op_map.items():
+    # for k, v in op_map.items():
     #    print(type(k), "\n", k.name, k.dtype, type(k.dtype), " :\n", v)
 
     op_map_dtype = op_map.group_by("dtype")