Apple details how it trained its new AI models

9 months ago

Apple announced new versions of its on-device and cloud-based foundation models during WWDC25.
The local model is split into two blocks, reducing memory usage and improving token output speed without compromising performance.
Apple's cloud-based model uses a custom architecture called Parallel-Track Mixture-of-Experts (PT-MoE) for efficiency and scalability.
Multilingual support was increased by 275%, with training data now including 30% multilingual content.
Training data sources include publicly available web data, licensed content, synthetic data, and visual data.
Apple respects robots.txt exclusions, ensuring websites can opt out of data scraping.
The report highlights Apple's privacy-conscious approach and technical advancements in AI.

Hasty Briefsbeta