Question

我知道,在《世界人权宣言》中存在着职能锁定,你可以在那里制定方言,并询问万国邮联的时间。但是,我想知道,在《公开宣言》中是否存在这样的事情? 是否有办法询问万国邮联在开放式世界时段? (使用NVIDIA工具袋的Im)。

Answer 1

The NVIDIA OpenCL SDK has an example Using Inline PLEX with OpenCL 。 24小时登记册可通过作为特别登记册的星号PEK获得。

我从未用《开放式组织法》对此进行过测试,但在《世界人权宣言》中却使用过。

请注意,汇编者可重新排列或删除登记册。

Answer 2

没有任何开放的办法来直接盘问锁周期。然而,开放消费物价指数确实有一个特征分析机制,它暴露了对化装置的增量反射。通过比较定购事件之间的差别,可以衡量过去的时间。 See clGetEventProfilingInfo.

Answer 3

还有一些人前来帮助: A. 简短介绍与开放式文化论坛一起运行的剖面图

采用可图谱方式:

cmdQueue = clCreateCommandQueue(context, *devices, CL_QUEUE_PROFILING_ENABLE, &err);

Profiling kernel:

cl_event prof_event; 
clEnqueueNDRangeKernel(cmdQueue, kernel, 1 , 0, globalWorkSize, NULL, 0, NULL, &prof_event);

阅读剖面数据:

cl_ulong ev_start_time=(cl_ulong)0;     
cl_ulong ev_end_time=(cl_ulong)0;   

clFinish(cmdQueue);
err = clWaitForEvents(1, &prof_event);
err |= clGetEventProfilingInfo(prof_event, CL_PROFILING_COMMAND_START, sizeof(cl_ulong), &ev_start_time, NULL);
err |= clGetEventProfilingInfo(prof_event, CL_PROFILING_COMMAND_END, sizeof(cl_ulong), &ev_end_time, NULL);

计算执行时间:

float run_time_gpu = (float)(ev_end_time - ev_start_time)/1000; // in usec

Profiling of individual work-items / work-goups is NOT possible yet. You can set globalWorkSize = localWorkSize for profiling. Then you have only one workgroup.

Btw:对单一工作项目(一些工作项目)的总结非常有益。由于只有一些工作项目,你才得以隐藏晚期的记忆和导致无法进行有意义的测量的间接费用。

Answer 4

(当然与NVidia OpenCL合作)

uint clock_time()
{
    uint clock_time;
    asm("mov.u32 %0, %%clock;" : "=r"(clock_time));
    return clock_time;
}

Answer 5

在免疫缺陷病毒/艾滋病方面,你可以采取以下措施:

typedef unsigned long uint64_t; // if you haven t done so earlier
inline uint64_t n_nv_Clock()
{
    uint64_t n_clock;
    asm volatile("mov.u64 %0, %%clock64;" : "=l" (n_clock)); // make sure the compiler will not reorder this
    return n_clock;
}

www.un.org/Depts/DGACM/index_french.htm 关键词告诉最优化者,你确实指的是它,不希望它转移/优化。这是在 P ,例如:gcc 。

注:这一回报clocks,而不是Nanoseconds。您需要询问装置的锁定频率(使用clGetDeviceInfo(device, CL_DEVICE_ Fair_CLOCK_FRE RequestNCY,尺寸(freq), &freq, 0)。还指出,在旧装置上,有两种频率(或三种频率,如果你算出这个情况下不相干的记忆频率):这种装置锁锁和碎锁。你们想要的是摇篮。

有了64个参数的登记册,你就不必担心过度流入,因为通常需要数百年。另一方面,32个轨道版本的溢出率相当高(如果超过两倍,仍然可以收回结果)。

Answer 6

Now, 10 years later after the question was posted I did some tests on NVidia. I tried running the answers given by user Spectral and the swine . Answer given by Spectral does not work. I always got same invalid values returned by clock_time function.

uint clock_time()
{
    uint clock_time;
    asm("mov.u32 %0, %%clock;" : "=r"(clock_time)); // this is wrong
    return clock_time;
}

在减去启动和结束时间之后,我只字不提。

因此,在PyOpenCL中,你可以这样做:

kernel_string = """
your OpenCL code
"""

prg = cl.Program(ctx, kernel_string).build()

print(prg.binaries[0].decode())

它指出,24小时指挥是优化的! 因此,印刷组没有定点指示。

查阅 Nvidia s PEK 文件我发现:

通常,任何拟写的记忆,如果对用户记忆具有隐蔽的副作用(例如,通过歌剧间接进入记忆地点),或者如果你想要停止在Plfon公司生成期间在(m)上进行的任何记忆优化,那么你可以在第3号上校之后添加一个“流层”衣物,例如:

因此,实际工作的职能是:

uint clock_time()
{
    uint clock_time;
    asm volatile ("mov.u32 %0, %%clock;" : "=r"(clock_time) :: "memory");
    return clock_time;
}

The Assembly contained Line such as:

    // inline asm
    mov.u32 %r13, %clock;
    // inline asm

该双胞胎的版本也发挥了作用。

友情链接