브라우저가 AI 워크스테이션이 되는 시대: WebLLM과 WebGPU로 구현하는 로컬 인퍼런스
우리는 지금까지 거대언어모델(LLM)을 사용하기 위해 반드시 강력한 클라우드 서버와 그에 따른 API 호출이 필요하다고 믿어왔습니다. 질문을 던지면 데이터는 어딘가로 전송되고, 연산은 먼 곳의 GPU에서 수행된 뒤 결과값이 다시 우리에게 돌아오는 방식이었죠. 하지만 이제 패러다임이 바뀌고 있습니다. 클라우드 서버 없이 사용자의 로컬 하드웨어만으로도 고성능 AI 모델을 실행할 수 있는 시대가
웹GPULLM로컬 추론웹어셈블리