Hacker News

Y

Hacker News

new | ask | show | jobs

fspeech 5 months ago [ - ]

It uses 75% linear attention layers so it is inherently lower cost. And it is MOE so active parameters are far lower.