2025

March 02, 2025 Test-time Compute Algorithms for Diffusion Language Models

February 25, 2025 A Distributed Inference Engine for SmolLM with Rust and gRPC

January 01, 2025 RL for Training Multiple Decoding Heads -- An Inference Acceleration Method in Language Models (ICLR 2025 Workshop on Sparsity in LLMs)

2024

December 24, 2024 Frequency Based Constrained Decoding for Language Model Watermarks

December 18, 2024 Agent for Seamless Meeting Scheduling

November 22, 2024 Tempus AI Short Recommendation