基石与核心
从零手动实现反向传播和 L1+L2 的弹性网;结合 luz 框架、正则化策略、混合精度训练 (AMP) 与超参数调优,构筑兼具 tidyverse 优雅与 GPU 算力的高效训练范式。
在大模型与 API 满天飞的时代,解决高阶业务痛点的核心壁垒,依然在于构建白盒化、可外推、能落地的专属模型。
依托 R 语言与 torch 生态,本书为你打通从底层数学原理到微服务部署的全链路:
基石与核心
从零手动实现反向传播和 L1+L2 的弹性网;结合 luz 框架、正则化策略、混合精度训练 (AMP) 与超参数调优,构筑兼具 tidyverse 优雅与 GPU 算力的高效训练范式。
理解 LLM 的底层机制
从掩码注意力到 Transformer 完全体,引入 ALiBi 机制实现时序“零次外推”。两百行代码复刻生成式大语言模型,构建并微调 (LoRA) 专属的生成式 Transformer 网络。
表格数据的新解法
集成深度学习表征能力,将表格数据升级为多模态数据。利用 Transformer 无视顺序的机制,通过注意力机制自动挖掘特征之间的高阶交互,为结构化数据引入大模型级别的理解力。
图神经网络和推荐
利用图神经网络 (GNN) 在网络图谱中进行深度的社区挖掘与节点分类。从经典的双塔架构,到基于 Transformer 的序列推荐 (SASRec)。结合 LightGCN 将图结构引入长尾推荐。
拆解生成式 AI
深入生成模型的数学灵魂。从变分自编码器 (VAE) 的潜在空间降维,推导 WGAN 克服模式崩塌;最终亲手搭建并训练扩散模型 (Diffusion),掌握文字生成图片的基本逻辑。
解释性和部署
引入 SHAP 特征贡献度、Grad-CAM 视觉热力图,用蒙特卡洛 Dropout 量化不确定性;完成跨语言的 ONNX 导出,提供基于 Docker 或 RestRserve 的微服务生产框架。