1.AI与PDE(七):AFNO模型的大模源代码解析
2.手把手教你微调百亿大模型:基于Firefly微调Qwen1.5-14b
3.开源大模型GGUF量化(llama.cpp)与本地部署运行(ollama)教程
4.深入 Dify 源码,定位知识库检索的型源大模型调用异常
5.Python大语言模型实战-利用ChatDev框架自动开发一个游戏软件(附完整教程)
6.强化学习ppo算法源码
AI与PDE(七):AFNO模型的源代码解析
本文旨在解析AFNO模型的源代码,帮助读者理解模型细节与主干结构。码大模型首先,源码AFNO模型的解读主干框架在afnonet.py文件中定义,通过类AFNONet实现。大模宝塔源码分析模型的型源核心功能封装在多个类与函数中,依据代码注释逐步解析。码大模型
在代码中,源码forward_features函数负责模型的解读核心逻辑,包括patch切割与mixing过程。大模这些操作由PatchEmbed类实现。型源位置编码self.pos_embed通过高斯初始化得到,码大模型增加模型的源码表示能力。
关键模块AFNO2d位于代码中,解读它基于FNO的原理,负责处理输入数据。AFNO2d模块在forward_features函数中通过循环调用,实现数据的转换与混合。
经过数个L layer处理后,模型进入类似解码器的结构,用于将中间结果映射为目标结果。这一过程通过self.head(x)实现,以解决特定分类问题。
本文通过梳理代码流程与结构图,直观展示了AFNO模型的工作原理。读者可参考AFNO的GitHub源代码与论文,深入理解细节。后续文章将继续探讨基于AFNO模型框架的其他应用,如FourCastNet。
手把手教你微调百亿大模型:基于Firefly微调Qwen1.5-b
本文旨在引导新手通过使用Firefly项目微调Qwen1.5-b模型,学习大模型的微调流程。此教程不仅适用于微调llama、ziya、bloom等模型,同时Firefly项目正在逐步兼容更多开源大模型,如InternLM、CPM-bee、ChatGLM2等。此教程是大模型训练的步步指引,即使你是训练大模型的新手,也能通过本文快速在单显卡上训练出自己的大模型。 访问Firefly项目链接:/yangjianxin1/Firefly 1. 安装环境 假定读者具备一定的springcloudmq源码python编程基础,直接跳过python、cuda、git等编程环境和工具的安装教程。 首先,将Firefly项目代码库clone至本地: 1. 进入项目目录 2. 创建相应的虚拟环境 3. 安装相应的python包 确保使用源码安装所有包,避免不必要的麻烦。推荐torch版本为1.3,避免使用2.0。 2. 准备训练集 Firefly项目提供多个高质量指令数据集,推荐使用moss数据集,数据集下载地址在Github项目地址中。 训练数据为jsonl格式,每行为一个多轮对话,conversation字段是必需的,可根据实际需求添加或删除其他字段。 也可使用自定义数据,只需整理成指定格式即可。在项目的data/dummy_data.jsonl文件中存放了调试数据,可用于代码调试。 3. 配置训练参数 所有训练参数配置存储在train_args目录,便于统一管理。以微调Qwen1.5-b为例,参数配置文件路径为train_args/qlora/qwen1.5-b-sft-qlora.json,可根据硬件条件调整文件中的训练参数。 训练参数详细说明如下: 在微调Qwen1.5-b时,训练配置如下,需根据实际情况调整: model_name_or_path:可指定huggingface模型仓库名称或本地模型路径。使用huggingface仓库名称时,训练脚本会自动下载权重、tokenizer和代码等。本地访问较慢时,建议先下载模型至本地,使用本地路径。 如遇到OOM问题,可调整max_seq_length、per_device_train_batch_size等参数缓解。开启gradient_checkpointing参数可大幅降低显存占用,但会减慢训练速度。 4. 启动训练 执行以下脚本启动训练,num_gpus表示训练使用的显卡数量。全球批大小为per_device_train_batch_size * gradient_accumulation_steps * num_gpus。 在RTX上训练7B模型,epollinux源码每个step大约秒,B模型每个step大约秒。 5. 合并权重 训练中仅保存adapter的权重,不保存合并后的模型权重。训练结束后,手动将adapter与base model的权重合并。adapter权重保存至output_dir指定目录,执行script目录下的merge_lora.py脚本获取合并后的模型权重。 注意:Qwen1.5-b等模型自定义了结构和tokenizer,代码未合并至transformers库中。合并权重后,需复制huggingface模型仓库中的python文件至合并权重目录,否则加载合并模型进行推理时会出错。 权重合并脚本如下,请根据实际的base model和adapter保存路径,调整save_path、adapter_name_or_path、model_name_or_path等参数。 6. 模型推理 完成权重合并后,即可使用模型进行推理。项目提供单轮对话和多轮对话脚本,详情参见script/chat目录。该脚本兼容本项目训练的所有模型。 生成脚本中的top_p、repetition_penalty、temperature、do_sample等参数对生成效果影响显著,根据使用场景进行调整。 推理阶段,模型的解码方式对生成效果影响巨大,常用解码方式包括Greedy Search、Beam Search、Top-K Sampling、Top-P Sampling、Contrastive Search等。 目前主流模型多采用Top-P Sampling,具有随机性,能提高丰富度,降低重复输出,本项目也使用此方式。Contrastive Search也值得尝试,是springapi源码一种确定性解码算法。 解码方式值得深入探讨,有兴趣的读者后续可关注。 单轮对话: 多轮对话: 7. 结语 本文详细介绍了使用Firefly项目微调Qwen1.5-b模型的步骤,希望读者按照本教程逐步操作,顺利完成大模型的训练。开源大模型GGUF量化(llama.cpp)与本地部署运行(ollama)教程
llama.cpp与ollama是开源项目,旨在解决大型模型在本地部署时遇到的问题。通过llama.cpp,用户可以对模型进行量化,以解决模型在特定电脑配置下无法运行的问题。同时,ollama则提供了一个简单的方法,让量化后的模型在本地更方便地运行。
对于许多用户来说,下载开源大模型后,往往面临不会运行或硬件配置不足无法运行的困扰。本文通过介绍llama.cpp和ollama的使用,提供了一个从量化到本地运行的解决方案。
下面,我们以Llama2开源大模型为例,详细说明如何在本地使用llama.cpp进行量化GGUF模型,并通过ollama进行运行。
在开始前,如果对量化和GGUF等专业术语感到困惑,建议使用文心一言或chatGPT等AI工具进行查询以获取更多信息。
使用ollama进行运行非常简单,只需访问其官网下载安装应用即可。支持众多大模型,操作指令直接使用`ollama run`即可自动下载和运行大模型。
运行指令示例:对于llama2大模型,原本.5G的7b模型在ollama中压缩至3.8G,量化等级为Q4_0。若需导入并运行已量化的GGUF模型,只需创建一个文件并添加FROM指令,指定模型本地文件路径。
在使用ollama进行模型操作时,需注意创建模型、运行模型等步骤。若有疑问,可留言交流。
对于自行下载的模型,要实现量化成GGUF格式,mscodecloud源码就需要借助于llama.cpp项目。该项目旨在实现LLM推理,支持多种量化级别,如1.5位、2位、3位、4位、5位、6位和8位整数量化,以提高推理速度并减少内存使用。
要使用llama.cpp,首先需克隆源码并创建build目录,然后通过Cmake进行编译。推荐使用Visual Studio 进行编译。编译成功后,可在bin/release目录找到编译好的程序。
接下来,通过llama.cpp项目中的convert.py脚本将模型转换为GGUF格式。对于llama2-b模型,转换后的模型大小从.2G缩减至6.G。
量化模型后,运行时使用llama.cpp编译的main.exe或直接使用ollama进行操作。通过创建文本文件并指定模型,使用ollama run指令即可轻松运行量化后的模型。
本文通过详细示例展示了如何利用llama.cpp和ollama对大模型进行量化并实现本地运行。若需进一步了解或在操作中遇到问题,欢迎在留言区进行交流。
深入 Dify 源码,定位知识库检索的大模型调用异常
深入分析Dify源码:大模型调用异常定位
在使用Dify服务与Xinference的THUDM/glm-4-9b-chat模型部署时,遇到了知识库检索节点执行时报错大模型GPT3.5不存在的问题。异常出乎意料,因为没有额外信息可供进一步定位。 通过源码和服务API调用链路的分析,我们发现问题的关键在于知识库检索的实现。该功能在api/core/rag/datasource/retrieval_service.py中,其中混合检索由向量检索和全文检索组成。我们关注了关键词检索、向量检索和全文检索这三个基础检索方式:关键词检索:仅使用jieba进行关键词提取,无大模型介入。
向量检索:通过向量库直接搜索,如Milvus,无大模型调用。
全文检索:使用BM,大部分向量库不支持,实际操作中返回空列表。
问题出现在知识库检索节点的多知识库召回判断中,N选1召回模式会调用大模型以决定知识库。在配置环节,前端HTTP请求显示配置错误,使用了不存在的GPT3.5模型。 经测试,手工创建的知识库检索节点使用了正确的glm-4-9b-chat模型,问题出在默认模板的配置上,即N选1召回模式默认选择了GPT3.5。本地部署时,如果没有配置相应模型,会导致错误出现。 总结来说,解决方法是修改默认模板,将知识库检索的默认模式改为多路召回,这样可以避免新手在本地部署时遇到困扰。建议Dify官方在模板中改进这一设置,以简化用户部署流程。Python大语言模型实战-利用ChatDev框架自动开发一个游戏软件(附完整教程)
实现功能
ChatDev是一个多智能体协作框架,它模拟一个虚拟的软件公司。当用户提出一个具体的任务需求时,不同的智能体角色会进行交互式协同,从而生产出一个完整的软件,包括源代码、环境依赖说明书、用户手册等。本文将演示如何利用ChatDev项目自动开发一个游戏软件的完整步骤。
实现代码
环境
步骤
第一步:克隆GitHub存储库。首先,在cmd命令工具下使用以下命令克隆存储库:
在D:\workspace\software-factory就会出现项目文件夹D:\workspace\software-factory\ChatDev
第二步:设置Python环境。使用以下命令创建anaconda环境chatdev,并激活环境:
第三步:安装依赖项。进入ChatDev目录并运行以下命令来安装必要的依赖项:
第四步:设置OpenAI API密钥。在Windows系统cmd上:
第五步:构建软件。使用以下命令启动生成您的软件,将[design a basic Gomoku game]替换为您的想法描述,将[Gomoku] 替换为您想要的项目名称:
第六步:运行软件。生成后,在WareHouse 目录下的特定项目文件夹中找到软件,例如[Gomoku]_DefaultOrganization_。在该目录中运行以下命令来运行软件:
注:本文只是展示了利用ChatDev应用的一个简单实例,可以通过以下链接了解更多
实现效果
项目文件夹:
运行结果:
强化学习ppo算法源码
在大模型训练的四个阶段中,强化学习阶段常常采用PPO算法,深入理解PPO算法与语言模型的融合可通过以下内容进行学习。以下代码解析主要参考了一篇清晰易懂的文章。 通过TRL包中的PPO实现,我们来逐步分析其与语言模型的结合过程。核心代码涉及到question_tensors、response_tensors和rewards,分别代表输入、模型生成的回复和奖励模型对输入加回复的评分。 训练过程中,trainer.step主要包含以下步骤:首先,将question_tensors和response_tensors输入语言模型,获取all_logprobs(每个token的对数概率)、logits_or_none(词表概率)、values(预估收益)和masks(掩码)。其中,如果没有设置return_logits=True,logits_or_none将为None,若设置则为[batch_size, response_length, vocab_size]。
接着,将输入传递给参考语言模型,得到类似的结果。
计算reward的过程涉及reference model和reward model,最终的奖励rewards通过compute_rewards函数计算,参考公式1和2。
计算优势advantage,依据公式3和4调整。
在epoch和batch中,对question_tensors和response_tensors再次处理,并设置return_logits=True,进入minbatch训练。
训练中,loss分为critic_loss(评论家损失,参考公式8)和actor_loss(演员损失,参考公式7),两者通过公式9合并,反向传播更新语言模型参数。
PPO相较于TRPO算法有两大改进:PPO-Penalty通过拉格朗日乘数法限制策略更新的KL散度,体现在actor_loss中的logprobs - old_logprobs;PPO-Clip则在目标函数中设定阈值,确保策略更新的平滑性,pg_losses2(加上正负号)部分体现了这一点。 对于初学者来说,这个过程可能有些复杂,但理解和实践后,将有助于掌握PPO在语言模型中的应用。参考资源可继续深入学习。Pytorch之Dataparallel源码解析
深入解析Pytorch之Dataparallel源码
在深入理解Dataparallel原理之前,需要明白它的使用场景和目的。Dataparallel设计用于在多GPU环境下并行处理数据,提高模型训练效率。
初始化阶段,Dataparallel需要实例化一个模型。这一步中,模型的参数会被复制到所有可用的GPU上,从而实现并行计算。
在前向传播阶段,Dataparallel的核心作用体现出来。它会将输入数据分割成多个小批次,然后分别发送到各个GPU上。在每个GPU上执行前向传播操作后,结果会被收集并汇总。这样,即便模型在多GPU上运行,输出结果也如同在单GPU上运行一样。
具体实现中,Dataparallel会利用Python的多重继承和数据并行策略。它继承自nn.Module,同时调用nn.DataParallel的构造函数,从而实现并行计算。
对于那些需要在GPU间共享的状态或变量,Dataparallel还提供了相应的管理机制,确保数据的一致性和计算的正确性。这样的设计使得模型能够高效地在多GPU环境下运行,同时保持代码的简洁性和易读性。
总结而言,Dataparallel通过分割数据、并行执行前向传播和收集结果的机制,实现了高效的数据并行训练。理解其源码有助于开发者更好地利用多GPU资源,提升模型训练效率。
SWAT模型|源代码编译及主要程序架构的全面介绍
本文全面介绍SWAT模型的源代码编译及程序架构。首先,需从SWAT官网获取原始SWAT代码,或付费购买,代码为Fortran语言。
下载代码后,进行编译是关键步骤。编译Fortran代码,我们推荐使用Visual Studio 和LHF。B站有相关安装教程,关键词为“Fortran编译器”与“软件安装”。编译成功后,应能顺利运行并输出“hello,world!”,验证环境搭建无误。
本文附有Visual Studio软件及SWAT代码下载链接,方便读者获取开发工具和学习资源。
编译完成后,我们将深入探讨SWAT模型的运行流程。模型运行分为三大步骤:读取工程文件、模型计算与结果输出。本文着重讲解模型计算过程,力求让读者对SWAT有直观理解,并附上全代码程序的调用思维导图,助于学习与实践。同时,SWAT原理概述帮助读者全面理解模型工作机理。
本文内容深入浅出,旨在为水文模型学习者提供全面指导,包含从代码获取、编译到模型运行的完整流程。更多相关资料与支持,请关注“水文模型小管家”。
DETR3D模型源码导读 & MMDetection3D构建流程
本文主要梳理了学习理解DETR3D模型源码与MMDetection3D构建流程的过程。首先,介绍model dict的配置与模型参数设置,指出在模型部分按照backbone、neck、head顺序定义,体现模型结构。
MMDetection3D在模型构建中利用类之间的包含关系递归实例化组件。在构建模型后,借助于registry机制实例化每一个组件,展现其层次性与模块化设计。
在初始化流程中,首先在train.py的build_model开始,通过调用build方法逐级初始化各子结构,直至最底层结构,遵循初始化顺序:Detr3D -> backbone -> neck -> head -> head_transformer -> head_transformer_decoder -> 最终组件。其中,许多类继承自官方提供的框架结构,通过super()调用在父类中实现子结构初始化。
关于DETR3D的组件,backbone、neck、head分别负责特征提取、融合、和目标检测的关键阶段。Detr3DHead继承自mmdet3d的DetrHead类,是模型的头部组件,实现特定检测任务。
DETR3DTransformer位于模型底层,是实现论文创新点的关键部分。其通过传感器转换矩阵预测reference points,并将投影到特征图,结合Bilinear Interpolation抓取固定区域特征,通过object queries refinement改善queries,用于目标预测。这一部分负责查询、特征捕捉与优化。
Decoder是DETR3D的核心,专注于实现object queries refinement。这一过程在论文中被详细探讨,并在代码中得到具体实现。值得注意的是,F.grid_sample()在特征处理过程中扮演着关键角色,展示其在变换与映射任务中的应用。