个人简历
教育经历
- 硕士(2023-至今|计算机技术|电子信息与工程学院|苏州科技大学
- 本科(2019-2023)|数据科学与大数据技术|数学科学学院|重庆师范大学
实习经历
- 2025.05-至今|上海人工智能实验室|安全可信ai中心|多模态算法(实习)
- SafeWork-R1: 构建安全训练数据,使用GRPO算法对32B、72B多模态模型进行RL训练。使训练出的安全多模态ORM具备高质量的CoT并在多个bench上达到sota,完成项目交付。(使用Verl的EasyR1框架,作为Contributor在Teach Report中署名)
- 生成对抗训练: 该研究基于当前RM在下游任务存在hack现象进行优化。构造对抗生成训练框架,使用PPO训练能生成对抗样本的policy model,将生成对抗样本与训练数据结合后来提升RM的鲁棒性。(重构OpenRLHF框架,ICLR在投)
- Steer Vector: 白盒模型的steer vector攻击研究。
有多节点训练经验;能熟练使用主流开源框架,并根据需求修改开源框架进行模型训练;能使用pytorch自行搭建训练框架。
- 2024.07-2024.12|科大讯飞苏州研究院|图谱星球|大模型算法(实习)
- 审讯笔录抽取: 基于业务设计抽取schema并进行模型抽取能力蒸馏训练,通过LLM+Bert的形式优化业务中「时间、物品」标签抽取准确性不达标的问题,使用1.5B模型完成部署优化,单key最高涨幅60%,平均涨幅13.3%,推理速度提高5倍。
- 模型function call能力提升 : 训练额外的PRM模型来对原先模型生成的路径进行打分,提高agent在实际业务场景中的function call能力。(训练过程基于实际业务数据以及人工标注,在每个过程数据结尾拼接special token作为优化目标,使用开源框架openr进行PRM训练;7B相较72B提高5.26%)
- text2sql能力优化: 构建生成、验证者pipline流程:生成者基于text生成sql语句,验证者总结sql语句,生成”正确“的sql。基于业务接口来验证sql的准确性,通过迭代方式能快速找到gold data并基于gold数据对生成者、验证者进行有监督微调,提高模型在真实业务场景的text2sql准确性。acc平均提高10%。
- 百万业务数据挖掘: toG百万业务数据挖掘分析,基于政府部门提供的业务数据,寻找不同部门之间的数据共性并反馈给产品,为业务产品设计的重点明确方向和验证可行性。
- 论文调研: 根据讯飞研究员的每周分享和前沿技术交流来调研并进行论文汇报,对可用技术进行复现并落实到项目中。
项目经历
智慧仲裁政府专项|苏州劳动人事仲裁院 & 中国联通 核心算法工程师(2024.01~2026.12.31) - 项目背景: 苏州劳动仲裁院要求与人工智能接轨,借助人工智能优势提高因仲裁专员的紧缺导致劳动仲裁的效率低下。要求该项目为仲裁减负,提高仲裁案件处理效率。
- 处理方法: 从0-1搭建基于⼤模型辅助的智慧仲裁Agent的全流程workflow。具体而言,整理了苏州劳动仲裁近3年的所有仲裁卷宗、清洗业务专项的种⼦数据,基于业务流程设计针对业务场景落地的工作流程、专项抽取模型、专项法律知识库,结合数据增强、模型蒸馏、特定的模型微调算法,来提高整体仲裁业务流程的可解释性,同时记录agent与环境交互后的结果并进行迭代更新。
- 项目成果: 完成一期、二期项目并验收(共三期),使用 10w预算的服务器(4卡4090) 完成所有模型训练以及业务流程的部署与上线,将1.5B模型的准确率由原先的 19.22%提升至57.83%,并构建可复用的仲裁业务数据与法律文本知识库。
- 智慧金融与大数据分析实验室|校企合作实验|member (2021.10-2022.12)
- 单元测试: 负责对项目的offline模块编写单元测试函数,主要使用python的unittest库进行测试。
- 数据扩增实验: 复现相关论文中的实验结果,并在个人数据集上进行实验。结果表明在模型蒸馏实验中,该对比学习框架能有效的在模型参数中保留知识,使得模型减重的同时也能在多分类任务中达到较高的准确度。
- docker服务部署: 将实验室的相关代码仓库和文档上传部署到实验室内部服务器。
- wandb实验管理: 使用WandB管理实验过程,确保数据和模型版本的一致性。对比不同变量的实验方法和效果,通过WandB的实验比较功能,找出最佳方案。
论文投稿&专利&获奖
- A $^2$ RM: Adversarial-Augmented Reward Model (ICLR在投)
- CourtFE: A Benchmark Dataset and Framework for Facts Extraction from Arbitration Court Hearing Transcripts (ARR审稿)
- 大模型时代下的汉语自然语言处理研究与探索 (计算机工程与应用见刊)
- 受限资源场景下的庭审笔录抽取系统及方法 (专利申请)
- 人工智能辅助事实抽取系统 (软件著作权)
- 全国人工智能应用场景创新挑战赛 (司法赛道二等奖)
个人优势
- 善于利用搜索引擎快速学习新知识,能流利撰写业务文档、乐意与mentor和leader进行交流沟通。
- 有两段研究院实习,一段政府人工智能应用落地项目,深入了解大模型的实际业务场景以及用户需求,并能进行对应的算法的应用落地和优化。
- 拥有产品思维,一个好的plan比技术堆叠带来的收益更高。
