이 글을 통해서 딥시크가 무엇인지, 딥시크와 허깅페이스의 리더보드, 그리고 그 차이점. 앞으로의 발전방향(미래)에 대해서 알아보려고 한다.
중국의 딥시크 충격이라는 내용으로 여러 언론을 통해서 보도가 되었다. 딥시크에서 제시한 벤치마크를 가지고 뉴스를 쓰는 미디어기업(신문사) 입장에서는 조회수를 올리기 좋은 소재로 보인다.
딥시크가 GPT-4o 를 넘어서거나 비슷한 수준이라고 하거나, 또한 개발비용이 더 저렴해서 더 좋은 것이라고 소개를 하고 있는데, 이부분을 자세히 알아보려고 한다.
딥시크는 무엇인가?
일단 딥시크 사태를 알기위해서는 몇가지 알아야 한다. 프로그래머라면 이미 알고 있는 깃허브(GitHub)와 같은 소스코드 저장 플랫폼(서비스)이 있다. 딥시크나 허깅페이스는 이러한 역할을 하는 플랫폼이라고 보면된다. AI 개발의 경우에는 작성한 코드의 양보다는 학습해야하는 데이터의 양이나, 학습해서 생성된 결과물인 데이터의 양이 더 크기 때문에, 이런 것들을 처리할 수 있는 인프라가 필요하다. 깃허브의 경우에는 중앙집중된 서버에 저장함으로써, 소스코드를 잃어버리지 않기 위함이었다면, 딥시크나 허깅페이스는 학습된 데이터를 잃어버리지 않기 위해서 저장하는 하나의 저장장치 같은 플랫폼이라고 보면된다.
단순히 저장장치라면 이렇게까지 이슈가 되지 않았겠지만, 먼저 허깅페이스가 단순한 저장장소에서 AI학습을 할 수 있는 플랫폼을 제공하면서 이러한 비즈니스가 가능한 것을 보여주었고, 딥시크는 이를 다시 한 번 Copy한 것이다. AI를 연구하는 연구자 입장에서는 PC나 서버를 구매하고, AI학습을 위한 사전작업을 준비하는 역할이 쉽지않다. 통계나 AI관련 프로그래밍을 잘하는 것이지, HW부터 어플리케이션, NW 레벨까지 모두 다 아는 것이 아니기 때문이다. 그러므로 허깅페이스는 이러한 AI개발자(기존의 머신러닝, 딥러닝)를 대상으로 바로 학습을 시작할 수 있는 인프라를 제공했다. 간단한 모델이나 간단한 데이터의 경우에는 무료로 테스트해볼 수 있어서 많은 유저들이 여기로 몰려들게 된다. 그리고 리더보드(Ranking system)를 통해서 그 결과를 공표함을써 경쟁을 유발하는 좋은 효과도 내기도 했다.
하지만, AI를 전문적으로 개발하는 OpenAI(*재단), 구글, 메타 등은 굳이 허깅페이스의 인프라르 사용하고, 그 결과를 오픈할 필요가 없었다. 그러므로 허깅페이스에 올라와있는 OpenAI, Google, Meta의 LLM(라지 랭귀지 모델)의 경우에는 최신버전이 아니라 이미 공개해도 상관없을 만큼 하위버전만을 올리고, 그냥 우리회사도 연구를 하고 있다. 그리고 이정도면 리더보드의 이정도는 된다고 식으로 올려놓고 관리를 안하는 실정이다.
위에서 언급한 대로 허깅페이스를 사용하게 되면 모델이 공개되어 버린다. 그러므로 사기업의 입장에서는 보안이 우선이기에, 그리고 더 좋은 인프라가 있으므로 여기에서 굳이 모델을 공개하면서까지 학습을 할 필요가 없다.
딥시크, 허깅페이스 리더보드의 의미는?
한국의 언론에서 몇몇 기업이 허깅페이스에서 세계 1위 성능의 LLM을 기록했다고 표현되는 경우가 있다. 이 경우는 거의 99.9% 해당 중소개발사가 자신들을 홍보할 목적으로 언론사에 기사를 사주한 것이다. 미국의 Meta 마저도 LLM 개발에 막대한 돈이 들어가기 때문에 어려움을 겪고 있다. 그런데 한국의 중소개발사가 더 좋은 LLM 모델을 개발했다? 그것은 "이 물을 먹으면 만병통치를 할 수 있다"는 말과 같다. 작은 모델은 SLLM(소몰 라지랭귀지모델)도 아니고, LLM인 거대 언어 모델을 개발하려면 중소개발사가 비용을 감당할 수도 없다. 인프라비용만 해도 그런데, 그런 고급인재가 영입이 될지도 모르겠다. LLM은 천재 1명이 개발하는 것이 아니다, 카이스트나 POSTECH, 서울대 등등의 천재 박사가 개발에 참여할수도 있겠지만, 그 사람 1명이나 몇명 정도가 지금까지 개발된 LLM 모델을 이길 수 있는 싸움이 아니다.
그러면 어떻게 1위를 했나 하는 의문이 들 것이다. 위에서 얘기한대로 허깅페이스에서 학습을 한 모델은 리더보드에 그 성능이 공개되고 랭킹이 매겨지게 된다. 그러면 이 중에서 1위를 차지한 모델을 가져다가 파라미터를 조금씩 조정해서 여러 번 수행하다보면 운이 좋게 1위 모델보다 더 좋은 성능이 찍히는 경우가 있고 이를 통해서 1위 자리를 얻게된다. 이때 바로 언론사를 불러서 인터뷰하고 (광고)기사를 내거나, 아니면 화면캡쳐 등을 통해서 1위를 한적이 있다 정도로 (광고)기사를 내는 선에서 마무리한다. 이를 받아적는 기자나 독자나 이런 시스템인지 모르기에, 1위를 한것이면 대단한게 아닌가 하는데, 허깅페이스를 사용할 줄 알고, LLM을 조금만 공부해본 사람이면 허깅페이스 내에서 누구나 1위를 할 수 있다고 자신있게 말할 수 있다.
위에 말한 파라미터를 변경하는 수준의 작업이나 학습은 파운데이션 모델을 튜닝한다고 하며, OpenAI, 구글(제미니), Meta(라마), Mistral 등이 개발하는 것이 파운데이션 모델이다. 파운데이션 모델이 있어야, 거기에서 튜닝을 하던가 아니면 순정으로 성능을 겨루던가 한다. 저 파운데이션 모델을 만드는 것이 말그대로 땅바닥부터 만드는것이서 절대로 중소기업은 할 수 없고, 삼성전자 조차도 시도하지 않는 영역이다.
딥시크와 허깅페이스는 무슨차이인가?
딥시크가 오픈소스 플랫폼이라고 얘기한 것을 보면 딥시크는 중국판 허깅페이스 이다. 그렇다면, 여기 올라가 있는 모델은 자신들이 개발한 것일까? GPT-4o 에 근접한 성능이라면 잘하긴 했지만, 어디에선가 소스코드가 유출되서 그런것이지 자신들의 파운데이션 모델을 개발하는 회사가 아니다. 그리고 자신들이 얘기한대로, 개발비용이 엄청 적게 들었다고 하는데, 학습을 안했는데 그런 결과가 나올 수가 없다. 그말은 튜닝을 통해서 랭킹이나 성능을 올리고 있는 편이지, 파운데이션 모델을 개발하고 있는 것이 아니라는 반증이다.
오픈소스가 라이센스 정책만 준수하면 무료인것 처럼, 오픈소스로 풀린 LLM 모델을 잘 이용해서 비즈니스를 만드는 것은 좋은 선택일 수 있다. 하지만 LLM 모델을 계속 발전시켜서 AGI(우리가 생각하는 일반 인공지능)를 개발하려는 회사들의 전쟁이 한창인 가운데, 딥시크에 이를 의존하라고 말하기에는 매우 애매한 상황이다.
아무도 딥시크나 허깅페이스에 최신 파운데이션 모델을 공개하지도 않을 것이고, 앞으로도 공개하지 않을텐데 어디서 유출되서 조각조각 된 것들이 딥시크나 허깅페이스로 들어와서 좋은 성능을 낼 수는 있지만, 매번 최고의 모델과 비슷하거나 더 나은 성과를 낼 수는 없기 때문이다. 오픈소스가 가장 좋은 성능을 내는 것이 과연 IT업계에 있을까?
오픈소스로 제공된 것을 순정인 상태 그대로 이용하는 기업들이 있나 생각해보면 답을 알 수 있다. 여력이 되는 대부분의 대기업은 자신들을 위해 기능을 더 고도화하고 성능을 개선해서 사용한다. 오픈소스가 변경되면 그에 맞는 작업을 계속 유지보수하면서 사용하게 된다.
딥시크의 미래는?
그러므로 내가 내린 결론은 딥시크의 부상이 "오~~" 라고 할만한 감탄사 정도의 모멘트이지, 주도권이 중국으로 바뀌었다고 보기에는 애매한 것 같다. Copy cat이나 Fast follower나 앞에 선두주자가 있어야 따라갈 수 있는 것인데, FM(파운데이션 모델)을 개발안하는 회사가 더 좋은 기술 개발을 하는 것은 불가능 할 것이다. 그러므로 일시적인 해프닝 정도로 생각된다.
물론 중국IT기업들이 실리콘밸리기업들을 매우 빠른 속도로 추격하고 있다. 국가적인 정책이 다르기에 중국에서는 우리나라나 미국에서는 개인정보로 분류되는 것들에 대해서도 쉽게 학습데이터로 사용할 수 있어서, 이런 부분에서는 모델의 정확도가 과적합에 해당할 정도로 학습이 잘 되어있는 편이다. (대신에 중국인, 중국어 이외의 데이터는 확보가 쉽지않아서 더 낫다고 보기 힘드럯이다)
다만, 중국도 4계절, 그리고 넓은 대륙에 의한 여러 지형들이 존재하기 때문에 자율주행기술에 있어서는 빠른속도의 발전이 이뤄지고 있는 것 같다. 개인적으로도 20년후를 보고 투자한다면 한국IT기업보다는 중국IT기업에 투자하는 것이 더 성과가 좋지 않을까 한다.
아래 관련기사를 링크하니까 한번 씩 읽어보면 좋겠다.
- 허깅페이스 리더보드 : https://n.news.naver.com/mnews/article/018/0005916487?sid=105
韓 AI, 허깅페이스 리더보드 휩쓸어… 기업시장 격전 예고
오픈AI와 구글 같은 빅테크 기업들이 최신 AI 파운데이션 모델의 파라미터(매개변수)수를 1750억 개 이상으로 확대했지만, 모든 인공지능(AI) 서비스에서 모델 크기가 초거대일 필요는 없다. 특히
n.news.naver.com
- 딥시크 충격의 벤치마크 : https://n.news.naver.com/mnews/article/015/0005086867?sid=104
"챗GPT 앞섰다"…더 싸고 성능 좋은 中 딥시크에 '충격' [이슈+]
중국의 AI 스타트업인 딥시크(DeepSeek)가 챗GPT보다 저렴한 그래픽처리장치(GPU)로 대형언어모델(LLM) 훈련을 마치는 등 챗GPT를 앞서는 결과가 나와 충격을 주고 있다. 미국의 수출 규제가 무력화될
n.news.naver.com
- 빅테크의 LLM(파운데이션 모델을 의미) 개발방향 : https://n.news.naver.com/mnews/article/029/0002897111?sid=105
LLM보다 효율적… 빅테크들 `SLM 경쟁`
매개변수 적어 운용비 절감 장점 MS·구글·메타 등 시장선점 나서 네이버·삼성전자도 개발대열 합류 생성형 인공지능(AI)이 나날이 커지고 있는 가운데 AI 언어 모델 운영에 들어가는 막대한 비
n.news.naver.com
- 전세계 Top10 파운데이션 모델 (2024년 6월기사) : https://www.crn.com/news/ai/2024/top-10-ai-foundation-models-ranked-google-nvidia-openai-lead-forrester-report?itc=refresh
Top 10 AI Foundation Models Ranked: Google, Nvidia, OpenAI Lead Forrester Report
Best AI foundation models for language are Google Gemini, Anthropic Claude, Nvidia, Amazon Bedrock, IBM Granite, OpenAI GPT-4, says Forrester report.
www.crn.com
'(주식) 미국 & 한국' 카테고리의 다른 글
2024 대한제분 배당금 및 배당일 (0) | 2025.01.27 |
---|---|
일양약품 배당,배당금,배당률,세금,실적발표,주가 전망 (0) | 2025.01.27 |
주성코퍼레이션 배당,배당금,실적발표,주가 전망 (0) | 2025.01.26 |
2024 환인제약 배당금 및 배당일 (0) | 2025.01.26 |
세방 배당,배당금,배당률,세금,실적발표,주가 전망 (0) | 2025.01.26 |