cuda吧
关注: 2,155 贴子: 2,781

欢迎讨论CUDA相关话题,广告勿扰

  • 目录:
  • 程序设计及人工智能
  • 4
    我想验证这个载板上的算力,网上的一些方法都不太行。有大佬帮忙吗?
    ChenKxii 9-26
  • 0
    哭泣…安装环境vs2019,gtx1050ti(已安装驱动)。 尝试进行cuda10.2版本安装。 自定义操作: 1.更改了安装目录(因为C盘实在是没空间了) 2.取消勾选visual studio integration(失败多次看安装教程操作的) 点击下一步后,到安装界面就直接显示安装程序失败。没有任何报错,实在是找不到解决办法。 求大佬们答疑解惑吧😭
  • 2
    如题,想请教一下如果有一个二维数组data[M][N],想求它在某个维度上的argmax,有没有什么好的使用CUDA加速的办法?最简单的办法是把某一个维度分配到block上然后用for循环去求,但是感觉这种做法没有充分利用GPU。更进一步的如果源数组是一个有很多维度的tensor,如data[N1][N2][N3][...][Nk]这种,有没有什么高效的办法实现这个函数?
  • 1
    编译的时候静态断言了,原因是Unexpected compiler version, expected CUDA 12.4 or newer. 但是我的CUDA版本明明已经是14.6了。 想知道如何解决
    _Random_ 8-26
  • 7
    想要安装个cuda一直显示出错,哪里的问题呢
  • 0
    为什么渲染的时候cuda不工作 还是3D在跑
  • 1
    下载12.1.1版的时候弹出来的,请问各位大佬怎么解决啊
  • 0
    今天写代码时发现用cudamemcpy把25M个数据点从gpu向cpu中复制时,发现非常耗时,需要50多秒,注释掉前面两句trust::inclusive_scan和trust::copy后发现只需要几十毫秒,请问大佬这个问题怎么解决,inclusive_scan是实现代码功能必须要有的用来计算前缀和的代码,实际应用不能注释掉。问ai说是可能是由于内存碎片化导致的?应该怎么解决?
    哈哈... 8-5
  • 0
    nvidia驱动556,最高支持cuda12.5,下载的pytorch2.4,用的cuda12.4,cuda.is_available()或者cuda.device_count()调用后程序会卡住后中断,看系统日志有报错nvcuda64.dll异常什么的。请问是怎么回事? 计算机是win10,rtx2060.
    irisEu 8-2
  • 0
    求助各位大佬,这个检验安装一直是false怎么办
  • 3
    我用的最新的安装包,cuda_12.4.1_551.78_windows 显卡是4090,英伟达控制面板组件里面显示的版本号是 我已经把英伟达驱动都升级到最新了。然后自定义安装时显示的是这样 安装我把第二张图下面三个都取掉了,后提示报错,显示的是这样 大部分是未安装,几个已安装,一个失败,请问下如何解决,谢谢
    楽神荼. 6-30
  • 4
    线上答疑,英语要好,985/211本科大三以上,研究生更好
  • 1
    在Linux上安装CUDA,前面都很顺利,Ubuntu20.04+CUDA11.7,最后安装的时候如图,说nvidia-芭芭拉-OUbuntu1不是官方软件包,怎么办呀
    hfxxfgf 6-27
  • 0
    编写CUDA程序,发现有个例子可以是这么看资源分配的情况,请问这是个什么工具啊
  • 2
    新电脑学cuda编程,试了好几天就是出不了结果,软件也装了。 最后发现显卡是intel的,不支持cuda
    UPUP 6-5
  • 3
    有大佬帮忙看下这个是什么问题吗
  • 1
    以前遇到过这种问题,试过很多方法也不奏效,后来换了个服务器可以跑了。昨晚运行项目跑起来,今早过去重新跑结果一直报这个错误。求助各位大神
  • 4
    各路大神给看看啥情况。
  • 16
    就是在这个的前一步是什么,正常安装,然后处理安装好的包什么的 我没选VS的项,因为选上之后连安装那步都进不去,直接就卡掉然后失败。。。 大佬们请问这什么问题啊,网上都没找到一样的
  • 0
    531.14版本的驱动应该是测试版吧?全网都搜不到这个版本的驱动了。 531.18的驱动能不能搭配531.14的安装包?
    chai1577 5-8
  • 2
    #define LEFT_ROW 1000 #define LEFT_COL 2400 #define RIGHT_ROW 2400 #define RIGHT_COL 1000 #define RES_ROW 1000 #define RES_COL 1000 #define LENGTH 32 __global__ void multiMatrix(int** left, int** right, int** result) { int x_pos = blockIdx.x * blockDim.x + threadIdx.x; int y_pos = blockIdx.y * blockDim.y + threadIdx.y; if (x_pos < LEFT_COL && y_pos < RIGHT_ROW) { for (int k = 0; k < LEFT_ROW; k++) { result[x_pos][y_pos] += left[x_pos][k] * right[k][y_pos]; } } } int main(void) { int** arr_left; int** arr_right; int** cpu_result; int** gpu_result; cudaMallocManaged((void**)&amp
  • 1
    开始用的cudaevent计时,现在想尝试用Nsight System分析,目前在cuda api以及kernel下找到了核函数的事件,请问哪个才是准确的运行时间。但两者都和使用cudaevent存在时间差距,这个差距怎么理解,感谢大佬回答!
    Gint0k1 4-25
  • 1
    环境为vs2022,cuda12.2 打开vs自带的cuda模板会出现E0029和MSB3721两个报错,具体如下图:
    哈哈... 4-14
  • 0
    在文件sumArraysOnGPU-timer.cu中,设置block.x=1 023,重新编译并运行。与执行配置为block.x=1 024的运行结果进行比较,试着解释其区别和原因。
  • 1
    安装的是gpu版本的cuda,但是仍然返回false,请问怎么办。 如下图,分别是pytorch版本和cuda还有toolkit版本,是由官网上命令下载的,因此这三个版本是对上的,然后我的显卡驱动也可以支持11.3的cuda,但是is.available函数就是返回false,求助各位
  • 2
    大佬这是什么情况啊
    An2023 4-6
  • 2
    各位大佬好,如果我有两段等长数据,想要在device上找到第一段数据中的最大值,记录下索引(有多个相等最大值就记录所有索引),然后找到第二段数据中符合索引的元素的最大值和它的索引(如果有多个要任意一个就行)。之前每个数据作为寄存器变量遇到了同步的问题。数据段长度在每次循环会变(循环也在device上)而且最大可能会占用4*10^8个字节。请问各位大佬有什么好办法吗?就是数据放在哪一级内存中用什么算法比较好之类的。谢谢。
  • 1
    terminate called after throwing an instance of 'thrust::system::system_error' > what(): after reduction step 1: cudaErrorInvalidDeviceFunction: invalid device function
  • 0
    怎么会有人在文件名中加空格! 找不到配置文件,这个路径不改就没法用 配置文件是否存在都是一个迷
  • 1
    哥哥姐姐求助,这种情况是什么原因呢?
  • 2
    配置如下:vs2017,cuda10.1 cuda环境变量已经配置好了,用cmd检索显示cuda安装已经pass,然后用cuda配置vs2017的时候,如下图,无法运行.cu文件,一运行就出现以下两种报错,诚心请教
  • 0
    佬们,ldmatrix是把8*8矩阵加载到一组连续的32位寄存器里吗,我看参数不是间接寻址啊。咋传一个寄存器就搞定了
    DeathMasterZ 12-14
  • 11
    是这样的,win10 64位安装cuda8.0,安装目录为cuda,安装好后一分钟左右文件夹突然就不见了,也不是隐藏起来了,就是没有了,搜索都搜索不到,这是什么原因呢?
  • 1
    __device__ bool is_valid_box(uchar *left, int x, int y, int width, int height,int filterWidth, int winBox[]) { for (int i = 0; i < filterWidth; i++) { for (int j = 0; j < filterWidth; j++) { // 不超出图像边界 int clamp_x = __min(__max(x + j - filterWidth / 2, 0), width - 1); int clamp_y = __min(__max(y + i - filterWidth / 2, 0), height - 1); // 结果计算 int num = left[clamp_y * width + clamp_x]; if (num <= 0)//跳过窗口内有值小于0的线程 return false; } } for (int i = 0; i < filterWidth; i++) { for (int j = 0; j < filterWidth; j++) { int clamp_x = __min(__ma
  • 0
    CUDA与TensorRT部署实战课程(2023新课+源码+课件)
  • 8
    yanderify出错,怎么解决
  • 0
    有没有大神指导下CUDA显存爆了怎么解决
  • 0
    如题 有没有大佬能解答一下 在使用numba对矩阵进行计算的时候出现下面这个问题是什么原因造成的呢 网上也没有搜到类似的问题 numba.cuda.cudadrv.driver.CudaAPIError: [700] Call to cuModuleUnload results in UNKNOWN_CUDA_ERROR
    浪客酒歌 10-11
  • 4
    我想在核函数或者device函数里进行矩阵运算,cuda有内置的矩阵类型和相应函数吗?
  • 3
    最近搞了一块3060 12G,准备玩一玩秋叶大神的整合包,webui可以正常启动,但只要一跑图,就会报错。看了很多大神的文章,模仿着安装不同版本的python,N卡driver,cuda toolkit,pytorch,能改到的地方都改到了,把能试的错都试了,单从命令行调试来看,一切都正常,但只要一进webui,一跑图,准出错。而且随着不同的折腾,报错信息也有差别, 有“Torch use Cuda DSA",有'Torch not compiled with CUDA enabled', 还有好像是torch can no use GPU(已经不能复现,忘了
    stefanlq 9-2
  • 3
    我用p104炼丹,会报一个cuda错误,报错关于cuda kernel failed:no error,关于一个cuda代码中错误检测一行的,我目前尝试消费级显卡计算卡正常炼丹,但是p104我三张不同版本都不行,都报这个错误
  • 2
    最近学习CUDA C的编程,在并行运行一个简单的解调算法的时候,统计时间后发现运行速度越来越慢(但还是运算结果正确的),后来简化到只运行其中一个核函数的时候,就算复杂度下降了,但还是会越跑越慢,尝试过每一轮都进行cudafree和cudamalloc也没用,这是为什么呢? 刚刚还发现了,对于我用过的一些矩阵加法、矩阵点乘的教程例子,加上for循环跑很多很多次,也是会出现这种越来越慢的情况。 环境: win10 Visual studio2019 community cuda 10.2 cudnn 7.6.5

  • 发贴红色标题
  • 显示红名
  • 签到六倍经验

赠送补签卡1张,获得[经验书购买权]

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频!

本吧信息 查看详情>>