1.AMD 编译概述 & Fatbin 文件生成 & HIP Runtime API(启动 CUDA 核函数)
2.新鲜资讯|AMD FidelityFX™ SDK 1.0现已上线GPUOpen
3.Ubuntu下Valgrind编译及使用
AMD 编译概述 & Fatbin 文件生成 & HIP Runtime API(启动 CUDA 核函数)
AMD 平台的码下术语概览
AMD GPU 计算生态基于 ROCm(Radeon Open Computing platform),ROCm 包括ROC 和 Radeon 等简称,码下ROC:Radeon 开放计算平台,码下Radeon 是码下 AMD GPU 产品的品牌名。ROCm 类似于 CUDA 于 NVIDIA GPU。码下ROCx 包含 ROCr - ROC Runtime,码下深圳指数副图源码ROCk - ROC kernel driver,码下 ROCt - ROC Thunk。
HIP(Heterogeneous-Computing Interface for Portability)是码下一个旨在简化 CUDA 应用程序到便携式 C++ 代码转换的接口,支持 C 风格的码下 API 和 C++ 内核语言。
HIP-Clang 是码下 AMDGPU 异构编译器,用于在 AMD 平台上编译 HIP 程序。码下
HCC(Heterogeneous Compute Compiler)是码下面向异构设备的开源 C++ 编译器,基于 LLVM + CLANG,码下实现将并行编程程序转换为 AMD GCN ISA。码下
在 ROCM v3.5 版本前,码下HCC 编译器被使用,之后引入了 HIP-Clang 编译器,lightmass源码HCC 编译器不再发展新特性,AMD 公司不再维护。
“HIP化”工具,即 HIPify,能将 CUDA 代码转换为便携式 C++ 代码,自动执行大部分转换工作。
ROCm 计算平台的编译流程包括使用 HIPify 工具转换 CUDA 源码到 HIP 源码,HIP 源码能够在 AMD 或 NVIDIA GPU 上运行。
在 AMD ROCm 平台上,HIP 提供 HIP 运行时 API,实现与应用程序链接的对象库,包括流、事件和内存管理。在 NVIDIA CUDA 平台上,提供头文件,从 HIP 运行时 API 转换为 CUDA 运行时 API,zerotier 源码提供内联函数以实现低开销。
在 AMD ROCm 平台生成 Fat Binary 文件,使用 clang-offload-bundler 工具,将针对不同架构的多个 ELF 二进制文件合并成单个捆绑文件。
clang-offload-bundler 工具在编译过程中对翻译单元进行多次编译,生成主机和设备代码对象,然后合并这些代码对象到单个捆绑文件中。
HIP Runtime API 支持 CUDA <<<>>> 核函数语法,通过 hip-clang 编译选项选择 -fhip-new-launch-api,遇到 <<<>>> 时,调用一系列 API 来存储和处理核运行参数,最终通过 hipLaunchKernel API 运行核函数。
在编译过程中,使用 hip-clang 时,会调用 API 来存储核运行参数,然后通过桩函数调用,源码宝库再通过 hipLaunchKernel API 实现核函数的运行。
API 包括用于初始化和注册函数的 API,如 __hipRegisterFatBinary 和 __hipRegisterFunction,保证 fatbin 文件只加载一次。
新鲜资讯|AMD FidelityFX™ SDK 1.0现已上线GPUOpen
欢迎使用AMD FidelityFX软件开发工具包(SDK)! AMD FidelityFX SDK是一个易于集成的解决方案,可将AMD FidelityFX技术应用于游戏中,无需复杂移植过程。它是我们提供给开发者的新图形中间件。 自从发布AMD FidelityFX技术以来,我们已成为业界领先的技术合作伙伴之一,覆盖了多款知名游戏。随着技术发展和广泛应用,我们致力于简化开发者集成体验。AMD FidelityFX SDK为此成果。 这个SDK特点如下: 标准、libimobiledevice源码风格一致,友好易用。 简便生成应用,专注于核心算法。 稳定框架适用于各种API,支持多平台。 丰富文档可参考: gpuopen.com/manuals/fid... 预构建解决方案简化集成,集成仅需二十行代码。 新增三种效果: AMD FidelityFX 模糊 1.0:基于计算的高斯模糊技术。 AMD FidelityFX 景深1.0:重现相机镜头效果。 AMD FidelityFX 镜头特效1.0:支持多种镜头和胶片效果。 现有技术更新并纳入SDK: AMD FidelityFX CACAO 1.3:高度优化环境光遮蔽效果,引入对比纯AO和最终渲染结果功能。 AMD FidelityFX CAS 1.1:低开销自适应锐化算法,新增选择上采样功能。 FSR 1.1和FSR 2.2.1:图像放大解决方案,合并为一个示例。 AMD FidelityFX LPM 1.3:HDR映射解决方案,Vulkan支持,修复操作系统和交换链问题。 AMD FidelityFX 并行排序1.2:优化的基数排序实现。 AMD FidelityFX SPD 2.1:优化的单pass下采样器。 AMD FidelityFX SSSR 1.4和AMD FidelityFX 降噪器 1.2:反射和阴影质量优化。 AMD FidelityFX 可变着色1.1:可变速率着色集成。 示例集成代码已更新,包含混合光线追踪、反射、阴影等。 使用SDK步骤: 创建或链接SDK库到解决方案。 查询内存需求。 分配内存并初始化。 创建功能上下文。 运行时使用上下文。 释放内存。 完整源代码和二进制文件在GitHub上发布,查看丰富文档,访问GPUOpen上的新主页获取更多信息。如需反馈或建议,请联系我们,所有请求都非常重要且会回复。请注意AMD FSR技术的使用限制和归属声明。Ubuntu下Valgrind编译及使用
Valgrind是一个开源的软件,适用于Linux系统(包括x、amd和ppc架构)中的程序内存调试与代码剖析。通过Valgrind的运行环境,用户可以监控程序的内存使用情况,例如C语言的malloc和free,或C++中的new和delete。借助Valgrind工具包,用户能够自动检测多种内存管理和线程错误,节省大量时间在错误查找上,使程序更加稳定。
Valgrind的主要功能包括:Memcheck、Callgrind、Cachegrind、Helgrind和Massif。以下分别介绍这些工具的作用:
Memcheck
Memcheck工具主要检查以下程序错误:
1. 使用未初始化的内存
2. 使用已释放的内存
3. 使用超过malloc分配的内存空间
4. 对堆栈的非法访问
5. 申请的空间是否有释放
6. malloc/free/new/delete申请和释放内存的匹配
7. src和dst的重叠
Callgrind
Callgrind能够收集程序运行时的数据,函数调用关系等信息,并可选择性地进行缓存模拟。运行结束后,它将分析数据写入文件。callgrind_annotate可以将这些文件内容转换为可读格式。
Cachegrind
Cachegrind模拟CPU中的I1、D1和L2缓存,能够精确指出程序中cache的丢失和命中情况。它还能提供cache丢失次数、内存引用次数,以及每行代码、每个函数、每个模块和整个程序产生的指令数。这有助于优化程序。
Helgrind
Helgrind主要用于检查多线程程序中的竞争问题。它通过查找多个线程访问而没有正确加锁的内存区域,发现线程间同步丢失的地方,从而定位难以发现的错误。Helgrind实现了名为“Eraser”的竞争检测算法,并进行了改进,减少错误报告次数。
Massif
Massif是一个堆栈分析器,可测量程序在堆栈中使用了多少内存,并告诉我们堆块、堆管理块和栈的大小。Massif帮助我们减少内存使用,在具有虚拟内存的现代系统中,它还能加快程序运行速度,减少程序停留在交换区中的几率。
以下主要讲解valgrind源码编译安装:
1. 下载地址: Current Releases
2. 解压: tar xvf valgrind-3..0.tar.bz2
3. 执行autogen.sh:cd valgrind-3..0 && ./ autogen.sh
4. 配置: ./configure --prefix=/usr/local/valgrind
5. 编译: make -j8
6. 安装: sudo make install
Valgrind使用:
1. 对“ls”程序进行检查,返回结果中的“definitely lost: 0 bytes in 0 blocks.”表示没有内存泄漏。
2. 内存泄漏程序测试
3. 测试多线程竞争的情况
4. 使用valgrind的helgrind工具也可以检查出死锁问题