研究与工程项目

精选项目,涵盖系统搭建、算法实现与研究原型,按时间倒序排列。完整项目列表见 GitHub

VocoType · SPH 流体 · 医疗 AI · 机器人位姿 · Autograd · 操作系统 · RAG

VocoType-linux · 2025 年 12 月 - 至今

高性能离线中文语音识别系统,集成基于 ML 的后处理与可视化配置

主要特性:

  • 端到端流水线:音频采集、VAD、ASR 模型推理与系统集成
  • 轻量级端上后处理模型,用于标点恢复与文本格式化
  • 语音编辑模式:通过语音命令实现实时纠错与插入
  • 可视化配置界面:模型选择、热键绑定、输入法集成
  • 面向低延迟离线运行优化,无云依赖

技术栈: Python、PyTorch、ONNX Runtime、ALSA、Linux 输入法

VocoType-linux 演示截图

高斯 SPH 流体:物理一体化 3D 高斯的 SPH 流体动力学 · 2025 年冬

统一的仿真-渲染流水线:用无散度 SPH 求解器推进 3D 高斯,并直接渲染

我的贡献:

  • 共同设计 DFSPH 耦合,逐步在高斯粒子上施加不可压缩约束(恒密度 + 无散度)
  • 实现均匀内部填充——通过对均匀 3D 网格上平滑不透明度场的阈值化,把表面偏置的 3DGS 转换为 SPH 可用的体积
  • 实现基于 SPH ∇v 的隐式协方差更新,使各向异性高斯形状在仿真中与局部流场对齐
  • 在 Synthetic-NeRF(Materials、Hotdog、Ficus)场景上对比 PhysGaussian (MPM)——单一点云表示同时承担仿真与渲染,并保持液体般的连贯性与密度

技术栈: C++、CUDA、OpenGL、3D Gaussian Splatting、DFSPH

课程项目:3D 计算机图形学与深度学习 · BlendED × NVIDIA

数据稀缺下的高精度医疗 AI 迁移学习优化 · 2025 年夏

基于 ISIC 皮肤镜数据集的皮肤病变分类器,构建于自监督 ViT-Base/16 (MAE) 主干,使用两阶段微调与事后决策校准

我的贡献:

  • 两阶段训练:先在冻结的 MAE 特征上做线性探测(8 epochs),再以更小学习率端到端微调(25 epochs)
  • 类不平衡处理:基于逆类频率权重的随机采样器、AdamW + 权重衰减;自动混合精度训练保稳定
  • 事后决策校准:先验调整 (logits − τ·log prior) + 类别特定偏置,抑制对 nevus 的系统性过预测
  • 标准皮肤病学数据增强(随机裁剪、±30° 旋转、颜色抖动),输入归一化为 224×224

技术栈: PyTorch、Vision Transformer (ViT-B/16)、Masked Autoencoder、AdamW、AMP

课程项目:BlendED

移动机器人位姿估计 · 2025 年 3 - 4 月

面向机器人操作任务的基于点云的定位模块

我的贡献:

  • 实现多方法点云去噪流水线(统计离群点剔除、体素降采样)
  • 集成基于 ICP 的位姿精化,提升传感器噪声下的定位鲁棒性
  • 提升动态环境中移动操作的鲁棒性

技术栈: Python、PCL、ROS

课程项目:移动机器人操作中的 AI 与机器人技术 · Boston Dynamics 合作

C++ 自动微分引擎与神经网络

从零实现自动微分与神经网络库

我的贡献:

  • 仿照 PyTorch 重新实现 autograd:计算图构建与反向模式微分
  • 实现全连接层、激活函数和优化器(SGD、Adam)
  • 在标准基准上验证以保证数值正确性

技术栈: C++17、现代模板元编程

操作系统开发 · 2023 年春 & 2024 年夏

面向教学的 OS 内核工作,跨两个课程系列——从零实现核心子系统

我的贡献:

  • NJUOS 实验系列(2023 年春):进程调度(轮转、优先级)、虚拟内存管理(分页、按需调页)
  • MIT xv6 实验系列(2024 年夏):基于 inode 的文件系统、基础 POSIX 系统调用、其他内核子系统
  • 在教学内核的启动、调度器、内存与存储层做了系统性的动手实践

技术栈: C、x86 汇编、QEMU

检索增强生成 (RAG) 系统 · 2023 年 6 月

基于微调 LLaMA 后端的全栈问答与文档摘要系统

构建于 2023 年中——彼时 “RAG” 还未成为家喻户晓的术语,GPT-4 的工具生态尚未成熟,LangChain / LlamaIndex 也并非显然的起点。这是一个大一时的课程项目,已经探索了一年后整个领域才会收敛到的「先检索、再生成」模式。

我的贡献:

  • 对 LLaMA 进行领域特定问答任务的微调
  • 实现高效文档检索的向量数据库索引流水线
  • 构建 Vue.js 前端 + Spring Boot 后端 + RESTful API

技术栈: LLaMA、FAISS、Vue.js、Spring Boot、Python