Question

我试图把4800x9600矩阵加起来,结果形成1x9600矩阵。

我所做的事是,将4800x9600 split成9 600tric,每.4800.。然后,我削减了4800项内容。

问题是,这确实是缓慢的。

没有人提出任何建议?

基本上,Im试图执行MATLAB的总和(......)职能。

在这里,我核实的法典是细致的,它的确进展缓慢:

void reduceRows(Matrix Dresult,Matrix DA)
{
        //split DA into chunks
        Matrix Dchunk;
        Dchunk.h=1;Dchunk.w=DA.h;
        cudaMalloc((void**)&Dchunk.data,Dchunk.h*Dchunk.w*sizeof(float));

        Matrix DcolSum;
        DcolSum.h=1;DcolSum.w=1;
        //cudaMalloc((void**)&DcolSum.data,DcolSum.h*DcolSum.w*sizeof(float));

        int i;
        for(i=0;i<DA.w;i++)   //loop over each column
        {
                //printf("%d ",i);
                cudaMemcpy(Dchunk.data,&DA.data[i*DA.h],DA.h*sizeof(float),cudaMemcpyDeviceToDevice);
                DcolSum.data=&Dresult.data[i];
                reduceTotal(DcolSum,Dchunk);
        }
        cudaFree(Dchunk.data);
}

矩阵定义为:

typedef struct{
        long w;
        long h;
        float* data;
}Matrix;

仅削减标准NVIDIA,将Dchunk的所有要素汇总起来,并将答案放在DcolSum。

如果我找不到答案,我就要在万国邮联上这样做。

许多代表团预先感谢,

Answer 1

每一栏中各栏之间不相平行。 4600个校对将9600个条目列在其一栏中,并将总和放在相应的位置。

如果你找一个图书馆与Cuda简单的图书馆合作,我高度建议Thrust:。

使用在座各位,我会创建一位ctor子,在装置记忆中担任你的矩阵点,然后按一栏指数排列。校长的操作者将采用一个指数,总结矩阵中的所有内容,并退还这笔钱。之后,你将坐在以下几个方面:一是dev子,没有任何记忆副本(甚至连直接的《世界人权宣言》电话)。

您的校长不妨研究一下:

struct ColumnSumFunctor {
    const Matrix matrix;

    // Make a functor to sum the matrix
    ColumnSumFunctor(const Matrix& matrix);

    // Compute and return the sum of the specified column
    __device__
    int operator()(const int& column) const;
};

Answer 2

削减是普惠制的基本运作,它预计会很快,减少量9 600倍也缓慢。

你们使用什么图形卡?

我建议你将其分成9600个阵列,每次将4800个单元减少到一个结果。我建议你不要减少Total,而是利用CUDPP来开展削减行动,而CUDPP与CUDA的STL一样。它关注业绩。

。 http://code.google.com/p/cudpp/。

Answer 3

我认为,你的问题是,你正在发射9600X2个弹道。这应当是一种简单的算法,可以作为一个单方表示。

执行这一计划的最富有活力的方法不会带来记忆,但比你现在这样做的快得多。

你们一旦走了不起的工作方式,就会把你的记忆:为: 例如,在一块块中,每read16个连续浮标注成共享记忆、合成物,然后将相关的16个浮标积积集到一个登记册、星座,然后重复。

计算机SDK有许多减少技术的例子。

友情链接