Supporting "type-locked". A back-port from VkInline.

feiy · feiy · commit f8709df9a7e9 · 2020-07-30T14:06:15.000+08:00
diff --git a/Context.cpp b/Context.cpp
@@ -30,7 +30,9 @@ namespace CUInline
 		bool query_struct(const char* name_struct, const std::vector<const char*>& name_members, size_t* offsets);
 		bool calc_optimal_block_size(const std::vector<CapturedDeviceViewable>& arg_map, const char* code_body, int& sizeBlock, unsigned sharedMemBytes = 0);
 		bool calc_number_blocks(const std::vector<CapturedDeviceViewable>& arg_map, const char* code_body, int sizeBlock, int& numBlocks, unsigned sharedMemBytes = 0);
+		bool launch_kernel(KernelId_t kid, dim_type gridDim, dim_type blockDim, size_t num_args, const DeviceViewable** args, unsigned sharedMemBytes);
 		bool launch_kernel(dim_type gridDim, dim_type blockDim, const std::vector<CapturedDeviceViewable>& arg_map, const char* code_body, unsigned sharedMemBytes = 0);
+		bool launch_kernel(KernelId_t& kid, dim_type gridDim, dim_type blockDim, const std::vector<CapturedDeviceViewable>& arg_map, const char* code_body, unsigned sharedMemBytes = 0);
 
 		void add_include_dir(const char* path);
 		void add_built_in_header(const char* name, const char* content);
@@ -47,7 +49,6 @@ namespace CUInline
 		KernelId_t _build_kernel(const std::vector<CapturedDeviceViewable>& arg_map, const char* code_body);
 		int _launch_calc(KernelId_t kid, unsigned sharedMemBytes);
 		int _persist_calc(KernelId_t kid, int numBlocks, unsigned sharedMemBytes);
-		bool _launch_kernel(KernelId_t kid, dim_type gridDim, dim_type blockDim, const std::vector<CapturedDeviceViewable>& arg_map, unsigned sharedMemBytes);
 
 		static const char* s_libnvrtc_path;
 
@@ -156,11 +157,13 @@ namespace CUInline
 		cuCtxSynchronize();
 	}
 
-	Kernel::Kernel(const std::vector<const char*>& param_names, const char* code_body) :
-		m_param_names(param_names.size()), m_code_body(code_body)
+	Kernel::Kernel(const std::vector<const char*>& param_names, const char* code_body, bool type_locked) :
+		m_param_names(param_names.size()), m_code_body(code_body), m_type_locked(type_locked)
 	{
 		for (size_t i = 0; i < param_names.size(); i++)
 			m_param_names[i] = param_names[i];
+
+		m_kid = (unsigned)(-1);
 	}
 
 	bool Kernel::calc_optimal_block_size(const DeviceViewable** args, int& sizeBlock, unsigned sharedMemBytes)
@@ -190,13 +193,36 @@ namespace CUInline
 	bool Kernel::launch(dim_type gridDim, dim_type blockDim, const DeviceViewable** args, unsigned sharedMemBytes)
 	{
 		Context& ctx = Context::get_context();
-		std::vector<CapturedDeviceViewable> arg_map(m_param_names.size());
-		for (size_t i = 0; i < m_param_names.size(); i++)
+		if (!m_type_locked)
 		{
-			arg_map[i].obj_name = m_param_names[i].c_str();
-			arg_map[i].obj = args[i];
+			std::vector<CapturedDeviceViewable> arg_map(m_param_names.size());
+			for (size_t i = 0; i < m_param_names.size(); i++)
+			{
+				arg_map[i].obj_name = m_param_names[i].c_str();
+				arg_map[i].obj = args[i];
+			}
+			return ctx.launch_kernel(gridDim, blockDim, arg_map, m_code_body.c_str(), sharedMemBytes);
+		}
+		else
+		{
+			std::unique_lock<std::mutex> locker(m_mu_type_lock);
+			if (m_kid == (unsigned)(-1))
+			{
+				std::vector<CapturedDeviceViewable> arg_map(m_param_names.size());
+				for (size_t i = 0; i < m_param_names.size(); i++)
+				{
+					arg_map[i].obj_name = m_param_names[i].c_str();
+					arg_map[i].obj = args[i];
+				}
+				return ctx.launch_kernel(m_kid, gridDim, blockDim, arg_map, m_code_body.c_str(), sharedMemBytes);
+			}
+			else
+			{
+				locker.unlock();
+				return ctx.launch_kernel(m_kid, gridDim, blockDim, m_param_names.size(), args, sharedMemBytes);
+			}
 		}
-		return ctx.launch_kernel(gridDim, blockDim, arg_map, m_code_body.c_str(), sharedMemBytes);
+
 	}
 
 }
diff --git a/Context.h b/Context.h
@@ -2,6 +2,8 @@
 
 #include <vector>
 #include <string>
+#include <thread>
+#include <mutex>
 #include "DeviceViewable.h"
 
 namespace CUInline
@@ -34,7 +36,7 @@ namespace CUInline
 	public:
 		size_t num_params() const { return m_param_names.size(); }
 
-		Kernel(const std::vector<const char*>& param_names, const char* code_body);
+		Kernel(const std::vector<const char*>& param_names, const char* code_body, bool type_locked = false);
 		bool calc_optimal_block_size(const DeviceViewable** args, int& sizeBlock, unsigned sharedMemBytes = 0);
 		bool calc_number_blocks(const DeviceViewable** args, int sizeBlock, int& numBlocks, unsigned sharedMemBytes = 0);
 		bool launch(dim_type gridDim, dim_type blockDim, const DeviceViewable** args, unsigned sharedMemBytes = 0);
@@ -43,5 +45,9 @@ namespace CUInline
 		std::vector<std::string> m_param_names;
 		std::string m_code_body;
 
+		bool m_type_locked;
+		unsigned m_kid;
+		std::mutex m_mu_type_lock;
+
 	};
 }
diff --git a/internal/impl_context.inl b/internal/impl_context.inl
@@ -592,21 +592,20 @@ namespace CUInline
 		return num;
 	}
 
-	bool Context::_launch_kernel(KernelId_t kid, dim_type gridDim, dim_type blockDim, const std::vector<CapturedDeviceViewable>& arg_map, unsigned sharedMemBytes)
+	bool Context::launch_kernel(KernelId_t kid, dim_type gridDim, dim_type blockDim, size_t num_args, const DeviceViewable** args, unsigned sharedMemBytes)
 	{
 		Kernel *kernel;
 		{
 			std::shared_lock<std::shared_mutex> lock(m_mutex_kernels);
 			kernel = m_kernel_cache[kid];
 		}
 
-		size_t num_params = arg_map.size();
-		std::vector<ViewBuf> argbufs(num_params);
-		std::vector<void*> converted_args(num_params);
+		std::vector<ViewBuf> argbufs(num_args);
+		std::vector<void*> converted_args(num_args);
 
-		for (size_t i = 0; i < num_params; i++)
+		for (size_t i = 0; i < num_args; i++)
 		{
-			argbufs[i] = arg_map[i].obj->view();
+			argbufs[i] = args[i]->view();
 			converted_args[i] = argbufs[i].data();
 		}
 		CUresult res = cuLaunchKernel(kernel->func, gridDim.x, gridDim.y, gridDim.z, blockDim.x, blockDim.y, blockDim.z, sharedMemBytes, 0, converted_args.data(), 0);
@@ -634,7 +633,21 @@ namespace CUInline
 	{
 		KernelId_t kid = _build_kernel(arg_map, code_body);
 		if (kid == (KernelId_t)(-1)) return false;
-		return _launch_kernel(kid, gridDim, blockDim, arg_map, sharedMemBytes);
+		size_t num_params = arg_map.size();
+		std::vector<const DeviceViewable*> args(num_params);
+		for (size_t i = 0; i < num_params; i++)
+			args[i] = arg_map[i].obj;
+		return launch_kernel(kid, gridDim, blockDim, num_params, args.data(), sharedMemBytes);
+	}
+
+	bool Context::launch_kernel(KernelId_t& kid, dim_type gridDim, dim_type blockDim, const std::vector<CapturedDeviceViewable>& arg_map, const char* code_body, unsigned sharedMemBytes)
+	{
+		kid = _build_kernel(arg_map, code_body);
+		size_t num_params = arg_map.size();
+		std::vector<const DeviceViewable*> args(num_params);
+		for (size_t i = 0; i < num_params; i++)
+			args[i] = arg_map[i].obj;
+		return launch_kernel(kid, gridDim, blockDim, num_params, args.data(), sharedMemBytes);
 	}
 
 	void Context::add_include_dir(const char* path)
diff --git a/python/CUDAInline/Context.py b/python/CUDAInline/Context.py
@@ -30,9 +30,9 @@ def Wait():
     native.n_wait()
 
 class Kernel:
-    def __init__(self, param_names, body):
+    def __init__(self, param_names, body, type_locked=False):
         o_param_names = StrArray(param_names)
-        self.m_cptr = native.n_kernel_create(o_param_names.m_cptr, body.encode('utf-8'))
+        self.m_cptr = native.n_kernel_create(o_param_names.m_cptr, body.encode('utf-8'), type_locked)
 
     def __del__(self):
         native.n_kernel_destroy(self.m_cptr)
@@ -65,10 +65,18 @@ def launch(self, gridDim, blockDim, args, sharedMemBytes=0):
             sharedMemBytes)
 
 class For:
-    def __init__(self, param_names, name_iter, body):
+    def __init__(self, param_names, name_iter, body, type_locked=False):
         self.m_param_names = StrArray(param_names)
         self.m_name_iter = name_iter
         self.m_code_body = body
+        self.m_kernel = Kernel(['begin', 'end', 'func'],
+    '''
+    size_t tid =  threadIdx.x + blockIdx.x*blockDim.x + begin;
+    if(tid>=end) return;
+    func.inner(tid);
+    ''', type_locked)
+        self.m_type_locked = type_locked
+        self.m_sizeBlock = -1
 
     def num_params(self):
         return m_param_names.size()
@@ -86,29 +94,20 @@ def launch(self, begin, end, args):
         dvend = DVUInt64(end)
         o_args = ObjArray(args)
         func =  self.InnerProcedural(self.m_param_names, o_args, self.m_name_iter, self.m_code_body)
-        kernel = Kernel(['begin', 'end', 'func'],
-    '''
-    size_t tid =  threadIdx.x + blockIdx.x*blockDim.x + begin;
-    if(tid>=end) return;
-    func.inner(tid);
-    ''')
-        sizeBlock = kernel.calc_optimal_block_size([dvbegin, dvend, func]);
-        numBlocks = int((end - begin + sizeBlock - 1) / sizeBlock)
-        kernel.launch(numBlocks, sizeBlock, [dvbegin, dvend, func])
+        if not self.m_type_locked or self.m_sizeBlock == -1:
+            self.m_sizeBlock = self.m_kernel.calc_optimal_block_size([dvbegin, dvend, func]);            
+        numBlocks = int((end - begin + self.m_sizeBlock - 1) / self.m_sizeBlock)
+        self.m_kernel.launch(numBlocks, self.m_sizeBlock, [dvbegin, dvend, func])
 
     def launch_n(self, n, args):
-        dv_n = DVUInt64(n)
+        dvbegin = DVUInt64(0)
+        dvend = DVUInt64(n)
         o_args = ObjArray(args)
         func =  self.InnerProcedural(self.m_param_names, o_args, self.m_name_iter, self.m_code_body)
-        kernel = Kernel(['n', 'func'],
-    '''
-    size_t tid =  threadIdx.x + blockIdx.x*blockDim.x;
-    if(tid>=n) return;
-    func.inner(tid);
-    ''')
-        sizeBlock = kernel.calc_optimal_block_size([dv_n, func]);
-        numBlocks = int((n + sizeBlock - 1) / sizeBlock)
-        kernel.launch(numBlocks, sizeBlock, [dv_n, func])
+        if not self.m_type_locked or self.m_sizeBlock == -1:
+            self.m_sizeBlock = self.m_kernel.calc_optimal_block_size([dvbegin, dvend, func]);
+        numBlocks = int((n + self.m_sizeBlock - 1) / self.m_sizeBlock)
+        self.m_kernel.launch(numBlocks, self.m_sizeBlock, [dvbegin, dvend, func])
 
 
 
diff --git a/python/CUDAInline/cffi.py b/python/CUDAInline/cffi.py
@@ -3,6 +3,6 @@
 
 ffi = _cffi_backend.FFI('CUDAInline.cffi',
     _version = 0x2601,
-    _types = b'\x00\x00\x27\x0D\x00\x00\x7F\x03\x00\x00\x00\x0F\x00\x00\x2D\x0D\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x30\x0D\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x0F\x0D\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x0F\x0D\x00\x00\x01\x11\x00\x00\x01\x11\x00\x00\x07\x01\x00\x00\x08\x01\x00\x00\x00\x0F\x00\x00\x0F\x0D\x00\x00\x01\x11\x00\x00\x01\x11\x00\x00\x08\x01\x00\x00\x00\x0F\x00\x00\x0F\x0D\x00\x00\x01\x11\x00\x00\x01\x11\x00\x00\x01\x11\x00\x00\x01\x11\x00\x00\x07\x01\x00\x00\x00\x0F\x00\x00\x0F\x0D\x00\x00\x00\x0F\x00\x00\x36\x0D\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x10\x0D\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x41\x0D\x00\x00\x7D\x03\x00\x00\x00\x0F\x00\x00\x41\x0D\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x0E\x01\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x0D\x01\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x07\x01\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x0B\x01\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x08\x01\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x08\x01\x00\x00\x08\x01\x00\x00\x08\x01\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x0C\x01\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x0C\x01\x00\x00\x27\x03\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x0C\x01\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x0C\x01\x00\x00\x7E\x03\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x01\x11\x00\x00\x27\x11\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x01\x11\x00\x00\x0C\x01\x00\x00\x0C\x01\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x01\x11\x00\x00\x01\x11\x00\x00\x27\x11\x00\x00\x00\x0F\x00\x00\x7F\x0D\x00\x00\x27\x11\x00\x00\x00\x0F\x00\x00\x7F\x0D\x00\x00\x27\x11\x00\x00\x27\x11\x00\x00\x00\x0F\x00\x00\x7F\x0D\x00\x00\x27\x11\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x7F\x0D\x00\x00\x08\x01\x00\x00\x00\x0F\x00\x00\x7F\x0D\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x7F\x0D\x00\x00\x01\x11\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x7F\x0D\x00\x00\x01\x11\x00\x00\x01\x11\x00\x00\x0C\x01\x00\x00\x0C\x01\x00\x00\x00\x0F\x00\x00\x7F\x0D\x00\x00\x00\x0F\x00\x00\x02\x01\x00\x00\x7F\x03\x00\x00\x00\x01',
-    _globals = (b'\x00\x00\x63\x23n_add_built_in_header',0,b'\x00\x00\x60\x23n_add_code_block',0,b'\x00\x00\x67\x23n_add_constant_object',0,b'\x00\x00\x60\x23n_add_include_dir',0,b'\x00\x00\x60\x23n_add_inlcude_filename',0,b'\x00\x00\x1E\x23n_cudainline_try_init',0,b'\x00\x00\x3B\x23n_dim3_create',0,b'\x00\x00\x6E\x23n_dim3_destroy',0,b'\x00\x00\x6E\x23n_dv_destroy',0,b'\x00\x00\x00\x23n_dv_name_view_cls',0,b'\x00\x00\x32\x23n_dvbool_create',0,b'\x00\x00\x09\x23n_dvbool_value',0,b'\x00\x00\x47\x23n_dvbuffer_create',0,b'\x00\x00\x4F\x23n_dvbuffer_from_dvs',0,b'\x00\x00\x47\x23n_dvbuffer_range_create',0,b'\x00\x00\x56\x23n_dvbuffer_range_from_dvbuffer',0,b'\x00\x00\x71\x23n_dvbufferlike_from_host',0,b'\x00\x00\x29\x23n_dvbufferlike_size',0,b'\x00\x00\x75\x23n_dvbufferlike_to_host',0,b'\x00\x00\x5B\x23n_dvcombine_create',0,b'\x00\x00\x2C\x23n_dvdouble_create',0,b'\x00\x00\x03\x23n_dvdouble_value',0,b'\x00\x00\x2F\x23n_dvfloat_create',0,b'\x00\x00\x06\x23n_dvfloat_value',0,b'\x00\x00\x32\x23n_dvint16_create',0,b'\x00\x00\x09\x23n_dvint16_value',0,b'\x00\x00\x32\x23n_dvint32_create',0,b'\x00\x00\x09\x23n_dvint32_value',0,b'\x00\x00\x35\x23n_dvint64_create',0,b'\x00\x00\x20\x23n_dvint64_value',0,b'\x00\x00\x32\x23n_dvint8_create',0,b'\x00\x00\x09\x23n_dvint8_value',0,b'\x00\x00\x38\x23n_dvuint16_create',0,b'\x00\x00\x23\x23n_dvuint16_value',0,b'\x00\x00\x38\x23n_dvuint32_create',0,b'\x00\x00\x23\x23n_dvuint32_value',0,b'\x00\x00\x40\x23n_dvuint64_create',0,b'\x00\x00\x29\x23n_dvuint64_value',0,b'\x00\x00\x38\x23n_dvuint8_create',0,b'\x00\x00\x23\x23n_dvuint8_value',0,b'\x00\x00\x0C\x23n_kernel_calc_number_blocks',0,b'\x00\x00\x12\x23n_kernel_calc_optimal_block_size',0,b'\x00\x00\x52\x23n_kernel_create',0,b'\x00\x00\x6E\x23n_kernel_destroy',0,b'\x00\x00\x17\x23n_kernel_launch',0,b'\x00\x00\x09\x23n_kernel_num_params',0,b'\x00\x00\x4B\x23n_pointer_array_create',0,b'\x00\x00\x6E\x23n_pointer_array_destroy',0,b'\x00\x00\x29\x23n_pointer_array_size',0,b'\x00\x00\x60\x23n_set_libnvrtc_path',0,b'\x00\x00\x6B\x23n_set_verbose',0,b'\x00\x00\x26\x23n_size_of',0,b'\x00\x00\x43\x23n_string_array_create',0,b'\x00\x00\x6E\x23n_string_array_destroy',0,b'\x00\x00\x29\x23n_string_array_size',0,b'\x00\x00\x7B\x23n_wait',0),
+    _types = b'\x00\x00\x27\x0D\x00\x00\x80\x03\x00\x00\x00\x0F\x00\x00\x2D\x0D\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x30\x0D\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x0F\x0D\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x0F\x0D\x00\x00\x01\x11\x00\x00\x01\x11\x00\x00\x07\x01\x00\x00\x08\x01\x00\x00\x00\x0F\x00\x00\x0F\x0D\x00\x00\x01\x11\x00\x00\x01\x11\x00\x00\x08\x01\x00\x00\x00\x0F\x00\x00\x0F\x0D\x00\x00\x01\x11\x00\x00\x01\x11\x00\x00\x01\x11\x00\x00\x01\x11\x00\x00\x07\x01\x00\x00\x00\x0F\x00\x00\x0F\x0D\x00\x00\x00\x0F\x00\x00\x36\x0D\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x10\x0D\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x41\x0D\x00\x00\x7E\x03\x00\x00\x00\x0F\x00\x00\x41\x0D\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x0E\x01\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x0D\x01\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x07\x01\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x0B\x01\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x08\x01\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x08\x01\x00\x00\x08\x01\x00\x00\x08\x01\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x0C\x01\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x0C\x01\x00\x00\x27\x03\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x0C\x01\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x0C\x01\x00\x00\x7F\x03\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x01\x11\x00\x00\x27\x11\x00\x00\x08\x01\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x01\x11\x00\x00\x0C\x01\x00\x00\x0C\x01\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x01\x11\x00\x00\x01\x11\x00\x00\x27\x11\x00\x00\x00\x0F\x00\x00\x80\x0D\x00\x00\x27\x11\x00\x00\x00\x0F\x00\x00\x80\x0D\x00\x00\x27\x11\x00\x00\x27\x11\x00\x00\x00\x0F\x00\x00\x80\x0D\x00\x00\x27\x11\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x80\x0D\x00\x00\x08\x01\x00\x00\x00\x0F\x00\x00\x80\x0D\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x80\x0D\x00\x00\x01\x11\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x80\x0D\x00\x00\x01\x11\x00\x00\x01\x11\x00\x00\x0C\x01\x00\x00\x0C\x01\x00\x00\x00\x0F\x00\x00\x80\x0D\x00\x00\x00\x0F\x00\x00\x02\x01\x00\x00\x80\x03\x00\x00\x00\x01',
+    _globals = (b'\x00\x00\x64\x23n_add_built_in_header',0,b'\x00\x00\x61\x23n_add_code_block',0,b'\x00\x00\x68\x23n_add_constant_object',0,b'\x00\x00\x61\x23n_add_include_dir',0,b'\x00\x00\x61\x23n_add_inlcude_filename',0,b'\x00\x00\x1E\x23n_cudainline_try_init',0,b'\x00\x00\x3B\x23n_dim3_create',0,b'\x00\x00\x6F\x23n_dim3_destroy',0,b'\x00\x00\x6F\x23n_dv_destroy',0,b'\x00\x00\x00\x23n_dv_name_view_cls',0,b'\x00\x00\x32\x23n_dvbool_create',0,b'\x00\x00\x09\x23n_dvbool_value',0,b'\x00\x00\x47\x23n_dvbuffer_create',0,b'\x00\x00\x4F\x23n_dvbuffer_from_dvs',0,b'\x00\x00\x47\x23n_dvbuffer_range_create',0,b'\x00\x00\x57\x23n_dvbuffer_range_from_dvbuffer',0,b'\x00\x00\x72\x23n_dvbufferlike_from_host',0,b'\x00\x00\x29\x23n_dvbufferlike_size',0,b'\x00\x00\x76\x23n_dvbufferlike_to_host',0,b'\x00\x00\x5C\x23n_dvcombine_create',0,b'\x00\x00\x2C\x23n_dvdouble_create',0,b'\x00\x00\x03\x23n_dvdouble_value',0,b'\x00\x00\x2F\x23n_dvfloat_create',0,b'\x00\x00\x06\x23n_dvfloat_value',0,b'\x00\x00\x32\x23n_dvint16_create',0,b'\x00\x00\x09\x23n_dvint16_value',0,b'\x00\x00\x32\x23n_dvint32_create',0,b'\x00\x00\x09\x23n_dvint32_value',0,b'\x00\x00\x35\x23n_dvint64_create',0,b'\x00\x00\x20\x23n_dvint64_value',0,b'\x00\x00\x32\x23n_dvint8_create',0,b'\x00\x00\x09\x23n_dvint8_value',0,b'\x00\x00\x38\x23n_dvuint16_create',0,b'\x00\x00\x23\x23n_dvuint16_value',0,b'\x00\x00\x38\x23n_dvuint32_create',0,b'\x00\x00\x23\x23n_dvuint32_value',0,b'\x00\x00\x40\x23n_dvuint64_create',0,b'\x00\x00\x29\x23n_dvuint64_value',0,b'\x00\x00\x38\x23n_dvuint8_create',0,b'\x00\x00\x23\x23n_dvuint8_value',0,b'\x00\x00\x0C\x23n_kernel_calc_number_blocks',0,b'\x00\x00\x12\x23n_kernel_calc_optimal_block_size',0,b'\x00\x00\x52\x23n_kernel_create',0,b'\x00\x00\x6F\x23n_kernel_destroy',0,b'\x00\x00\x17\x23n_kernel_launch',0,b'\x00\x00\x09\x23n_kernel_num_params',0,b'\x00\x00\x4B\x23n_pointer_array_create',0,b'\x00\x00\x6F\x23n_pointer_array_destroy',0,b'\x00\x00\x29\x23n_pointer_array_size',0,b'\x00\x00\x61\x23n_set_libnvrtc_path',0,b'\x00\x00\x6C\x23n_set_verbose',0,b'\x00\x00\x26\x23n_size_of',0,b'\x00\x00\x43\x23n_string_array_create',0,b'\x00\x00\x6F\x23n_string_array_destroy',0,b'\x00\x00\x29\x23n_string_array_size',0,b'\x00\x00\x7C\x23n_wait',0),
 )
diff --git a/python/CUDAInline/cffi_build.py b/python/CUDAInline/cffi_build.py
@@ -29,7 +29,7 @@
 void n_add_constant_object(const char* name, void* cptr);
 void n_wait();
 
-void* n_kernel_create(void* ptr_param_list, const char* body);
+void* n_kernel_create(void* ptr_param_list, const char* body, unsigned type_locked);
 void n_kernel_destroy(void* cptr);
 int n_kernel_num_params(void* cptr);
 int n_kernel_calc_optimal_block_size(void* ptr_kernel, void* ptr_arg_list, unsigned sharedMemBytes);
diff --git a/python/api.h b/python/api.h
@@ -31,7 +31,7 @@ extern "C"
 	PY_CUDAInline_API void n_add_constant_object(const char* name, void* cptr);
 	PY_CUDAInline_API void n_wait();
 
-	PY_CUDAInline_API void* n_kernel_create(void* ptr_param_list, const char* body);
+	PY_CUDAInline_API void* n_kernel_create(void* ptr_param_list, const char* body, unsigned type_locked);
 	PY_CUDAInline_API void n_kernel_destroy(void* cptr);
 	PY_CUDAInline_API int n_kernel_num_params(void* cptr);
 	PY_CUDAInline_API int n_kernel_calc_optimal_block_size(void* ptr_kernel, void* ptr_arg_list, unsigned sharedMemBytes);
diff --git a/python/api_Context.cpp b/python/api_Context.cpp
@@ -58,14 +58,14 @@ void n_wait()
 	Wait();
 }
 
-void* n_kernel_create(void* ptr_param_list, const char* body)
+void* n_kernel_create(void* ptr_param_list, const char* body, unsigned type_locked)
 {
 	StrArray* param_list = (StrArray*)ptr_param_list;
 	size_t num_params = param_list->size();
 	std::vector<const char*> params(num_params);
 	for (size_t i = 0; i < num_params; i++)
 		params[i] = (*param_list)[i].c_str();
-	Kernel* cptr = new Kernel(params, body);
+	Kernel* cptr = new Kernel(params, body, type_locked!=0);
 	return cptr;
 }
 
diff --git a/python/setup.py b/python/setup.py
@@ -9,7 +9,7 @@
 
 setup(
 	name = 'CUDAInline',
-	version = '0.0.5',
+	version = '0.0.6',
 	description = 'A CUDA interface for Python',
 	long_description=long_description,
 	long_description_content_type='text/markdown',  

Original file line number	Diff line number	Diff line change
`@@ -3,6 +3,6 @@`
`3`	`3`
`4`	`4`	`ffi = _cffi_backend.FFI('CUDAInline.cffi',`
`5`	`5`	`_version = 0x2601,`
`6`		- _types = b'\x00\x00\x27\x0D\x00\x00\x7F\x03\x00\x00\x00\x0F\x00\x00\x2D\x0D\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x30\x0D\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x0F\x0D\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x0F\x0D\x00\x00\x01\x11\x00\x00\x01\x11\x00\x00\x07\x01\x00\x00\x08\x01\x00\x00\x00\x0F\x00\x00\x0F\x0D\x00\x00\x01\x11\x00\x00\x01\x11\x00\x00\x08\x01\x00\x00\x00\x0F\x00\x00\x0F\x0D\x00\x00\x01\x11\x00\x00\x01\x11\x00\x00\x01\x11\x00\x00\x01\x11\x00\x00\x07\x01\x00\x00\x00\x0F\x00\x00\x0F\x0D\x00\x00\x00\x0F\x00\x00\x36\x0D\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x10\x0D\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x41\x0D\x00\x00\x7D\x03\x00\x00\x00\x0F\x00\x00\x41\x0D\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x0E\x01\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x0D\x01\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x07\x01\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x0B\x01\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x08\x01\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x08\x01\x00\x00\x08\x01\x00\x00\x08\x01\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x0C\x01\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x0C\x01\x00\x00\x27\x03\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x0C\x01\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x0C\x01\x00\x00\x7E\x03\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x01\x11\x00\x00\x27\x11\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x01\x11\x00\x00\x0C\x01\x00\x00\x0C\x01\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x01\x11\x00\x00\x01\x11\x00\x00\x27\x11\x00\x00\x00\x0F\x00\x00\x7F\x0D\x00\x00\x27\x11\x00\x00\x00\x0F\x00\x00\x7F\x0D\x00\x00\x27\x11\x00\x00\x27\x11\x00\x00\x00\x0F\x00\x00\x7F\x0D\x00\x00\x27\x11\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x7F\x0D\x00\x00\x08\x01\x00\x00\x00\x0F\x00\x00\x7F\x0D\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x7F\x0D\x00\x00\x01\x11\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x7F\x0D\x00\x00\x01\x11\x00\x00\x01\x11\x00\x00\x0C\x01\x00\x00\x0C\x01\x00\x00\x00\x0F\x00\x00\x7F\x0D\x00\x00\x00\x0F\x00\x00\x02\x01\x00\x00\x7F\x03\x00\x00\x00\x01',
`7`		- _globals = (b'\x00\x00\x63\x23n_add_built_in_header',0,b'\x00\x00\x60\x23n_add_code_block',0,b'\x00\x00\x67\x23n_add_constant_object',0,b'\x00\x00\x60\x23n_add_include_dir',0,b'\x00\x00\x60\x23n_add_inlcude_filename',0,b'\x00\x00\x1E\x23n_cudainline_try_init',0,b'\x00\x00\x3B\x23n_dim3_create',0,b'\x00\x00\x6E\x23n_dim3_destroy',0,b'\x00\x00\x6E\x23n_dv_destroy',0,b'\x00\x00\x00\x23n_dv_name_view_cls',0,b'\x00\x00\x32\x23n_dvbool_create',0,b'\x00\x00\x09\x23n_dvbool_value',0,b'\x00\x00\x47\x23n_dvbuffer_create',0,b'\x00\x00\x4F\x23n_dvbuffer_from_dvs',0,b'\x00\x00\x47\x23n_dvbuffer_range_create',0,b'\x00\x00\x56\x23n_dvbuffer_range_from_dvbuffer',0,b'\x00\x00\x71\x23n_dvbufferlike_from_host',0,b'\x00\x00\x29\x23n_dvbufferlike_size',0,b'\x00\x00\x75\x23n_dvbufferlike_to_host',0,b'\x00\x00\x5B\x23n_dvcombine_create',0,b'\x00\x00\x2C\x23n_dvdouble_create',0,b'\x00\x00\x03\x23n_dvdouble_value',0,b'\x00\x00\x2F\x23n_dvfloat_create',0,b'\x00\x00\x06\x23n_dvfloat_value',0,b'\x00\x00\x32\x23n_dvint16_create',0,b'\x00\x00\x09\x23n_dvint16_value',0,b'\x00\x00\x32\x23n_dvint32_create',0,b'\x00\x00\x09\x23n_dvint32_value',0,b'\x00\x00\x35\x23n_dvint64_create',0,b'\x00\x00\x20\x23n_dvint64_value',0,b'\x00\x00\x32\x23n_dvint8_create',0,b'\x00\x00\x09\x23n_dvint8_value',0,b'\x00\x00\x38\x23n_dvuint16_create',0,b'\x00\x00\x23\x23n_dvuint16_value',0,b'\x00\x00\x38\x23n_dvuint32_create',0,b'\x00\x00\x23\x23n_dvuint32_value',0,b'\x00\x00\x40\x23n_dvuint64_create',0,b'\x00\x00\x29\x23n_dvuint64_value',0,b'\x00\x00\x38\x23n_dvuint8_create',0,b'\x00\x00\x23\x23n_dvuint8_value',0,b'\x00\x00\x0C\x23n_kernel_calc_number_blocks',0,b'\x00\x00\x12\x23n_kernel_calc_optimal_block_size',0,b'\x00\x00\x52\x23n_kernel_create',0,b'\x00\x00\x6E\x23n_kernel_destroy',0,b'\x00\x00\x17\x23n_kernel_launch',0,b'\x00\x00\x09\x23n_kernel_num_params',0,b'\x00\x00\x4B\x23n_pointer_array_create',0,b'\x00\x00\x6E\x23n_pointer_array_destroy',0,b'\x00\x00\x29\x23n_pointer_array_size',0,b'\x00\x00\x60\x23n_set_libnvrtc_path',0,b'\x00\x00\x6B\x23n_set_verbose',0,b'\x00\x00\x26\x23n_size_of',0,b'\x00\x00\x43\x23n_string_array_create',0,b'\x00\x00\x6E\x23n_string_array_destroy',0,b'\x00\x00\x29\x23n_string_array_size',0,b'\x00\x00\x7B\x23n_wait',0),
	`6`	+ _types = b'\x00\x00\x27\x0D\x00\x00\x80\x03\x00\x00\x00\x0F\x00\x00\x2D\x0D\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x30\x0D\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x0F\x0D\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x0F\x0D\x00\x00\x01\x11\x00\x00\x01\x11\x00\x00\x07\x01\x00\x00\x08\x01\x00\x00\x00\x0F\x00\x00\x0F\x0D\x00\x00\x01\x11\x00\x00\x01\x11\x00\x00\x08\x01\x00\x00\x00\x0F\x00\x00\x0F\x0D\x00\x00\x01\x11\x00\x00\x01\x11\x00\x00\x01\x11\x00\x00\x01\x11\x00\x00\x07\x01\x00\x00\x00\x0F\x00\x00\x0F\x0D\x00\x00\x00\x0F\x00\x00\x36\x0D\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x10\x0D\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x41\x0D\x00\x00\x7E\x03\x00\x00\x00\x0F\x00\x00\x41\x0D\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x0E\x01\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x0D\x01\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x07\x01\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x0B\x01\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x08\x01\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x08\x01\x00\x00\x08\x01\x00\x00\x08\x01\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x0C\x01\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x0C\x01\x00\x00\x27\x03\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x0C\x01\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x0C\x01\x00\x00\x7F\x03\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x01\x11\x00\x00\x27\x11\x00\x00\x08\x01\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x01\x11\x00\x00\x0C\x01\x00\x00\x0C\x01\x00\x00\x00\x0F\x00\x00\x01\x0D\x00\x00\x01\x11\x00\x00\x01\x11\x00\x00\x27\x11\x00\x00\x00\x0F\x00\x00\x80\x0D\x00\x00\x27\x11\x00\x00\x00\x0F\x00\x00\x80\x0D\x00\x00\x27\x11\x00\x00\x27\x11\x00\x00\x00\x0F\x00\x00\x80\x0D\x00\x00\x27\x11\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x80\x0D\x00\x00\x08\x01\x00\x00\x00\x0F\x00\x00\x80\x0D\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x80\x0D\x00\x00\x01\x11\x00\x00\x01\x11\x00\x00\x00\x0F\x00\x00\x80\x0D\x00\x00\x01\x11\x00\x00\x01\x11\x00\x00\x0C\x01\x00\x00\x0C\x01\x00\x00\x00\x0F\x00\x00\x80\x0D\x00\x00\x00\x0F\x00\x00\x02\x01\x00\x00\x80\x03\x00\x00\x00\x01',
	`7`	+ _globals = (b'\x00\x00\x64\x23n_add_built_in_header',0,b'\x00\x00\x61\x23n_add_code_block',0,b'\x00\x00\x68\x23n_add_constant_object',0,b'\x00\x00\x61\x23n_add_include_dir',0,b'\x00\x00\x61\x23n_add_inlcude_filename',0,b'\x00\x00\x1E\x23n_cudainline_try_init',0,b'\x00\x00\x3B\x23n_dim3_create',0,b'\x00\x00\x6F\x23n_dim3_destroy',0,b'\x00\x00\x6F\x23n_dv_destroy',0,b'\x00\x00\x00\x23n_dv_name_view_cls',0,b'\x00\x00\x32\x23n_dvbool_create',0,b'\x00\x00\x09\x23n_dvbool_value',0,b'\x00\x00\x47\x23n_dvbuffer_create',0,b'\x00\x00\x4F\x23n_dvbuffer_from_dvs',0,b'\x00\x00\x47\x23n_dvbuffer_range_create',0,b'\x00\x00\x57\x23n_dvbuffer_range_from_dvbuffer',0,b'\x00\x00\x72\x23n_dvbufferlike_from_host',0,b'\x00\x00\x29\x23n_dvbufferlike_size',0,b'\x00\x00\x76\x23n_dvbufferlike_to_host',0,b'\x00\x00\x5C\x23n_dvcombine_create',0,b'\x00\x00\x2C\x23n_dvdouble_create',0,b'\x00\x00\x03\x23n_dvdouble_value',0,b'\x00\x00\x2F\x23n_dvfloat_create',0,b'\x00\x00\x06\x23n_dvfloat_value',0,b'\x00\x00\x32\x23n_dvint16_create',0,b'\x00\x00\x09\x23n_dvint16_value',0,b'\x00\x00\x32\x23n_dvint32_create',0,b'\x00\x00\x09\x23n_dvint32_value',0,b'\x00\x00\x35\x23n_dvint64_create',0,b'\x00\x00\x20\x23n_dvint64_value',0,b'\x00\x00\x32\x23n_dvint8_create',0,b'\x00\x00\x09\x23n_dvint8_value',0,b'\x00\x00\x38\x23n_dvuint16_create',0,b'\x00\x00\x23\x23n_dvuint16_value',0,b'\x00\x00\x38\x23n_dvuint32_create',0,b'\x00\x00\x23\x23n_dvuint32_value',0,b'\x00\x00\x40\x23n_dvuint64_create',0,b'\x00\x00\x29\x23n_dvuint64_value',0,b'\x00\x00\x38\x23n_dvuint8_create',0,b'\x00\x00\x23\x23n_dvuint8_value',0,b'\x00\x00\x0C\x23n_kernel_calc_number_blocks',0,b'\x00\x00\x12\x23n_kernel_calc_optimal_block_size',0,b'\x00\x00\x52\x23n_kernel_create',0,b'\x00\x00\x6F\x23n_kernel_destroy',0,b'\x00\x00\x17\x23n_kernel_launch',0,b'\x00\x00\x09\x23n_kernel_num_params',0,b'\x00\x00\x4B\x23n_pointer_array_create',0,b'\x00\x00\x6F\x23n_pointer_array_destroy',0,b'\x00\x00\x29\x23n_pointer_array_size',0,b'\x00\x00\x61\x23n_set_libnvrtc_path',0,b'\x00\x00\x6C\x23n_set_verbose',0,b'\x00\x00\x26\x23n_size_of',0,b'\x00\x00\x43\x23n_string_array_create',0,b'\x00\x00\x6F\x23n_string_array_destroy',0,b'\x00\x00\x29\x23n_string_array_size',0,b'\x00\x00\x7C\x23n_wait',0),
`8`	`8`	`)`
Original file line number	Diff line number	Diff line change
`@@ -58,14 +58,14 @@ void n_wait()`
`58`	`58`	`Wait();`
`59`	`59`	`}`
`60`	`60`
`61`		`-void* n_kernel_create(void* ptr_param_list, const char* body)`
	`61`	`+void* n_kernel_create(void* ptr_param_list, const char* body, unsigned type_locked)`
`62`	`62`	`{`
`63`	`63`	`StrArray* param_list = (StrArray*)ptr_param_list;`
`64`	`64`	`size_t num_params = param_list->size();`
`65`	`65`	`std::vector<const char*> params(num_params);`
`66`	`66`	`for (size_t i = 0; i < num_params; i++)`
`67`	`67`	`params[i] = (*param_list)[i].c_str();`
`68`		`- Kernel* cptr = new Kernel(params, body);`
	`68`	`+ Kernel* cptr = new Kernel(params, body, type_locked!=0);`
`69`	`69`	`return cptr;`
`70`	`70`	`}`
`71`	`71`