李立杰 · 数据科学

阿尔托大学瑞典皇家工学院

Aalto 与 KTH 数据科学硕士在读。主要做语音 AI、检索系统和可复现实验流水线，目前研究面向健康语音生物标志物的通用语音增强。

联系我

代表项目

查看全部项目

公开 Demo

↗

公开 AI 信息流

从我的私有 AI 信息流拆出的只读公开版，使用独立 API，并在展示前过滤私密信息。

硕士论文

面向健康语音生物标志物的语音增强

改造通用语音增强，使模型在真实录音条件变化下仍保留与健康相关的语音线索。

检索系统

法律文档问答 Agentic RAG

带来源依据的法律文档问答，结合问题拆解、检索和引用质量评估。

方向

语音增强、检索与应用机器学习

我当前的研究从 USE baseline 和评估入手，但目标是设计或改造语音增强模型，使其在真实录音条件变化下仍保留与健康生物标志物相关的语音线索。

实践 #1

语音与健康生物标志物研究

论文方向是把通用语音增强改造到健康语音鲁棒性场景，而不只是提升普通听感质量。

失真语音模拟与清理
公开语音增强 baseline 评测
AVQI 与下游分类评估
Triton 上的 PyTorch、Slurm 与 WandB 实验

实践 #2

检索与应用 ML 系统

过往项目包括法律 RAG、知识图谱检索、NLP 审核、ETA 不确定性和面向产品的小型 ML 系统。

Agentic RAG 与有来源依据的问答
混合检索与重排
不依赖单一指标的模型评估
数据流水线与可复现实验报告

项目

带实现细节的项目记录

简历里只能压缩展示，这里保留更多上下文：输入数据、建模选择、评估方式和实际实现内容。

在 GitHub 查看项目仓库 ↗

AI 工作流产品化个人作品集 · Next.js 公开 Demo

公开 AI 信息流

把私有 AI 信息流整理成可分享的只读公开版，只展示有价值的信号，不暴露个人工作流状态。

页面实现为 `/ai-feed/public`，数据由 `/api/ai-feed/public` 提供，与私有 `/ai-feed` 工作台分离。
只保留适合公开展示的内容块，并移除钉住、已读/丢弃状态、待办控制和 admin 入口。
渲染前过滤个人链接和追踪型链接，让页面可以作为简历站里的在线 Demo。

打开公开 Demo ↗

语音研究Aalto University · 硕士论文 / 研究助理工作

面向健康语音生物标志物的通用语音增强

测试语音增强能否在生物标志物分类前缓解录音条件漂移。

构建失真语音模拟与清理流程，覆盖噪声、混响、codec 退化与麦克风差异。
评测公开语音增强 baseline，并将增强结果接入实验室已有 AVQI 生物标志物评估流程。
在 Aalto Triton 上用 Slurm 和 WandB 运行、记录 PyTorch 实验。

检索系统Lexembed · 瑞典

法律问答 Agentic RAG

为上传文档集合构建带来源依据的法律问答组件。

实现问题拆解、实体抽取、文档检索和有来源依据的答案生成。
使用 RAGAS 风格评估比较检索相关性、答案 grounding 和引用质量。
保持流程显式可追踪，因为法律问答比普通生成更依赖证据链。

AI 系统VTT · 芬兰 · AaltoAI 2025 黑客松季军

异构数据知识图谱挑战

构建将公司来源与图谱文件中的创新记录合并的流水线。

先将图关系展平成统一关系表，再进行实体消解和规范图谱重建。
用 embedding 与 HDBSCAN 做语义去重，同时保留 source id、名称、描述和来源追踪。
构建 Qdrant ANN + BM25、RRF 融合和 Cross-Encoder 重排，并用 Hit Rate / MRR 评估。

AI 研究阿尔托大学 · 亚军

SNLP 挑战：多语语音与毒性检测

采用 Wav2Vec2-BERT + SpecAugment，WER 0.0664 / CER 0.0123。

使用 Wav2Vec2-BERT、SpecAugment 和正则化做低资源世界语 ASR。
在英语、德语和芬兰语上评测多语毒性分类模型。
使用 Triton GPU 资源和 WandB 记录模型对比与错误分析。

计算机视觉Aalto 计算机视觉挑战

基于参考图像的 AI 篡改定位

通过比较参考原图与 AI 编辑图定位被修改区域，将任务建模为有监督变化分割。

采用共享视觉编码器的 Siamese encoder-decoder 和特征差分融合，而不是简单 RGB 差分。
用 Dice / Focal 风格的 mask-aware loss 训练分割头，处理篡改区域较小的问题。
只在编辑图分支加入压缩、色彩偏移、缩放伪影和轻微错位等非对称增强，避免模型只学习像素噪声。

预测建模Wolt 数据科学案例

带校准不确定性的配送时间预测

针对右偏配送时间误差构建 ETA 点预测模型和校准预测区间。

比较原始分钟数与 log1p 分钟数等目标变换，降低长尾延迟对训练的影响。
测试树模型回归 baseline，并分析残差分布，区分系统性偏差和随机延迟波动。
在校准残差上应用非对称 conformal prediction，让 ETA 区间对迟到分配比早到更多的不确定性。

数据产品昆山源湃贸易 · 中国

自动化个性化营销 Agent 挑战

构建将 campaign brief 转换为本地化 SMS / email 资产的生成流程，并加入审核检查。

使用 n8n 编排 brief 解析、受众与语言适配、分渠道文案生成和资产交付。
加入自检步骤，在最终输出前检查品牌约束、安全规则和 SMS / email 长度限制。

文档 AI个人论文阅读工具

基于 LLM 的论文翻译流程

围绕 Codex skills、Zotero MCP、Obsidian 笔记和 LLM 辅助阅读构建个人论文工作流。

创建并使用 Codex skills 做论文分析、PDF 翻译、图片提取、论文推荐和 Obsidian 格式笔记生成。
把 Zotero/MCP 风格元数据查询与 arXiv/PDF 解析连接起来，让论文笔记包含来源链接、文献信息和提取图片。
优化 OCR、上下文窗口切分和按章节 prompt，用于长 PDF 论文阅读，并保存结构化双语 Obsidian 笔记。

经历

职业经历

在 LinkedIn 查看完整履历 ↗

AI / 数据角色

2026 年 2 月 — 至今

研究助理 / 硕士论文研究员

Aalto University · 芬兰·Espoo

研究面向健康语音生物标志物的通用语音增强，重点是数据漂移、benchmark 搭建和下游评估。

研究并构建 USE 实验所需的失真数据模拟，包括噪声、混响、codec 退化和麦克风不匹配。
将公开语音增强 baseline 接入实验室 AVQI 生物标志物评估流程，测试增强能否缓解数据漂移导致的分类失败。

2025 年 8 月 — 2026 年 2 月

数据科学家

Lexembed · 瑞典

围绕 Agentic RAG、文档检索和有来源依据的生成开发法律问答组件。

为上传法律文档构建问题拆解、实体抽取、知识图谱上下文和案例检索步骤。
在迭代中用 RAGAS 风格指标比较引用 grounding、答案相关性和检索质量。

2023 年 8 月 — 2024 年 3 月

数据专员（实习）

国创数字经济研究院 · 中国·深圳

负责政策内容审核模型的全流程：生成式扩充、对抗强化与部署。

使用 QLoRA + TPE 微调 DeBERTaV3，显存降 80%，F1 提升 5 分。
借助 TextAttack 套件强化分类器，并用 macro-F1 / MCC 仪表板验证鲁棒性。

当前档期

开放数据科学岗位

常驻 Espoo，开放欧洲范围内线下或远程的 ML、语音、检索和 AI infrastructure 岗位，也接受国内实习机会。

常驻 Espoo · 欧洲岗位 · 国内实习 · English / 中文

李立杰 · 数据科学

公开 AI 信息流

面向健康语音生物标志物的语音增强

法律文档问答 Agentic RAG

语音增强、检索与应用机器学习

语音与健康生物标志物研究

检索与应用 ML 系统

带实现细节的项目记录

公开 AI 信息流

面向健康语音生物标志物的通用语音增强

法律问答 Agentic RAG

异构数据知识图谱挑战

SNLP 挑战：多语语音与毒性检测

基于参考图像的 AI 篡改定位

带校准不确定性的配送时间预测

推荐与云一体平台

自动化个性化营销 Agent 挑战

基于 LLM 的论文翻译流程

经历

研究助理 / 硕士论文研究员

数据科学家

数据专员（实习）

开放数据科学岗位