Carl的生活碎碎念

个人学习记录

Carl的学习笔记

这里记录论文阅读、工程实践和日常技术整理。

近期论文 Blog

从本地 Markdown 笔记整理,保留论文来源、结论和阅读摘要。

更多论文

近期整理的论文阅读条目,主要记录研究问题、方法和实验结论。

LLM Serving 2026年6月5日

BROS: Efficient LLM Serving on Hybrid Real-time and Best-effort Requests

BROS 关注实时请求与尽力型请求混合服务场景,通过动态优先级调度和双向 KV 缓存管理,在保障实时请求延迟的同时维持批处理吞吐。

Mobile Edge 2026年6月5日

Pantheon: Preemptible Multi-DNN Inference on Mobile Edge GPUs

Pantheon 面向移动边缘 GPU 上的多 DNN 实时推理,利用软件调度、模型切片和早期退出机制实现细粒度抢占,降低截止时间错过率。