본문 바로가기
AI 활용

대화형 인공지능 언어 모델 평가 플랫폼, LMArena.io

by 피크나인 2025. 8. 27.

홈  /  AI활용  /  대화형 인공지능 언어 모델 평가 플랫폼, LMArena.io

'nano banana'에서 LMArena로 향한 여정

원래 이번 블로그 글에서는 최근 화제가 되고 있는 'nano banana' 모델에 대해 소개하려고 했습니다.

하지만 이미 수많은 블로그와 커뮤니티에서 'nano banana'에 대한 이야기가 넘쳐나고 있고, 정작 LMArena에서 이 모델을 만나기도 쉽지 않다는 점을 발견했습니다.

그래서 방향을 바꿔 'nano banana'를 품고 있는 더 큰 플랫폼인 LMArena.io 자체에 대해 깊이 있게 알아보기로 했습니다. 이 결정이 오히려 초보 개발자분들에게는 더 유익한 정보를 제공할 수 있을 것이라고 생각합니다.

LMArena는 수 많은 인공지능 모델에 대한 평가 플랫폼입니다. 실질적인 사용자의 평가에 의한 인공지능 언어모델의 순위에 대한 리더보드를 참고하시면, 자신에게 맞는 모델을 찾는데 매우 만족스러운 플랫폼입니다.
 

 

1.  LMArena.io란 무엇인가요?

LMArena.io는 다양한 대화형 인공지능의 언어모델을 평가하고 비교하는 오픈 플랫폼입니다.

UC Berkeley SkyLab과 LMSYS에서 개발한 이 플랫폼은 사용자들이 직접 AI 모델의 성능을 평가할 수 있도록 설계되었습니다. 마치 TV 프로그램 '히든싱어'처럼 모델명을 숨긴 채 두 AI의 답변을 비교하여 투표하는 방식으로 운영됩니다. 이러한 블라인드 테스트 방식을 통해 편견 없는 공정한 평가가 가능하며, 전 세계 사용자들의 집단지성을 활용한 신뢰할 수 있는 AI 벤치마크를 제공하고 있습니다.

 

현재 100개 이상의 AI 모델을 벤치마킹하고 있으며, 텍스트 대화, 이미지 생성, 웹 개발 등 다양한 카테고리에서 AI 모델의 성능을 측정하고 있습니다. 특히 코딩, 장문 작성, 수학 문제 해결 등의 전문적인 업무뿐만 아니라 영어, 프랑스어, 중국어, 일본어, 스페인어 등 다국어 지원 능력까지 종합적으로 평가합니다. 이는 개발자들이 프로젝트에 가장 적합한 AI 모델을 선택하는 데 매우 유용한 정보를 제공합니다.

 

LMArena는 AI 모델들이 서로 경쟁하는 플랫폼으로 사용자들이 두 AI 모델의 결과물을 보고 더 우수한 것을 선택하는 방식으로 운영되는데, Nano Banana가 생성한 이미지들이 지속적으로 높은 평가를 받으면서 자연스럽게 주목받기 시작했습니다. 특히 나노바나나는 공개 순위표에 나열된 모델들과 달리 리더보드에도 없고 Image Edit Arena에 공식적인 인정 없이 조용히 나타났습니다. 나노바나나를 경험하기 위해서는 수차례 질문을 던져야하며, 그것도 어쩌다 얻어걸려야 하는 힘든 경험입니다.


2. LMArena의 핵심 특징들

익명 비교 시스템 (Anonymous Comparison System)

LMArena의 가장 독특한 특징은 모델명이 블라인드 처리된 두 답변에 대해 평가하는 식으로 운영된다는 점입니다.

사용자가 질문을 입력하면 두 개의 서로 다른 AI 모델이 동일한 질문에 대해 답변을 제공하지만, 어떤 모델이 어떤 답변을 했는지는 투표 후에야 공개됩니다. 이러한 방식은 브랜드 편견을 완전히 배제하고 순수하게 답변의 품질만으로 평가할 수 있게 합니다.

다양한 평가 카테고리

플랫폼에서는 단순한 텍스트 대화를 넘어서 여러 전문 분야의 평가가 가능합니다. 이미지 지원 기능이 추가되어 시각-언어 모델들의 성능도 비교할 수 있으며, WebDev Arena를 통해서는 실제 웹 개발 과제를 수행하는 AI의 능력을 평가할 수 있습니다. 이는 초보 개발자들이 자신의 학습 단계와 프로젝트 요구사항에 맞는 AI 도구를 찾는 데 매우 실용적인 정보를 제공합니다.

실시간 리더보드와 통계

단 2주 만에 60개 이상 언어로 17,000개 이상의 사용자 선호도 투표를 수집할 정도로 활발한 커뮤니티를 바탕으로, 실시간으로 업데이트되는 리더보드를 제공합니다. 이 리더보드는 각 모델의 순위뿐만 아니라 특정 작업 유형별 성능, 언어별 성능 등 상세한 통계 정보를 포함하고 있어서 사용자들이 자신의 용도에 가장 적합한 모델을 선택할 수 있도록 도와줍니다.

LMArena에서의 AI모델에 대한 순위 ❘ LMArena.ai Leader Board


3. LMArena 사용 방법

기본 텍스트 대화 평가하기

LMArena를 처음 사용하는 초보자도 쉽게 시작할 수 있습니다.

먼저 lmarena.ai 사이트에 접속한 후, 원하는 질문이나 프롬프트를 입력창에 작성합니다. 질문의 종류에는 제한이 없으며, 일상적인 대화부터 전문적인 기술 문의까지 무엇이든 가능합니다. 시스템은 자동으로 두 개의 서로 다른 AI 모델을 선택하여 동일한 질문에 대한 답변을 생성해 줍니다. 두 답변을 비교한 후 어떤 답변이 더 나은지 투표하면, 그제야 어떤 모델이 어떤 답변을 작성했는지 공개됩니다.

이미지 생성 모델 비교하기

채팅창의 Generate Images 사진 아이콘을 선택하면 이미지 생성 기능을 사용할 수 있습니다.

텍스트 프롬프트만 입력하여 새로운 이미지를 생성하거나, Upload Image 기능을 통해 기존 이미지를 업로드하고 수정하는 것이 모두 가능합니다. 총 용량이 15MB까지만 가능하므로 큰 이미지 파일은 미리 크기를 줄여서 업로드하는 것이 좋습니다. 특히 최근 화제가 된 'nano banana' 모델을 만나려면 여러 번 시도해야 할 수 있지만, 그만큼 다양한 모델들의 성능을 비교해볼 수 있는 기회가 됩니다.

WebDev Arena로 코딩 능력 평가하기

개발자들에게 특히 유용한 기능인 WebDev Arena는 실제 웹 개발 과제를 통해 AI 모델들의 코딩 능력을 비교할 수 있게 해줍니다. 원하는 웹사이트 기능이나 컴포넌트에 대한 요구사항을 입력하면, 두 개의 AI 모델이 각각 코드를 생성해 줍니다. 생성된 코드의 품질, 완성도, 실행 가능성 등을 종합적으로 비교하여 투표할 수 있으며, 이는 초보 개발자들이 AI 코딩 도구를 선택하는 데 매우 실용적인 정보를 제공합니다.


4. LMArena가 중요한 이유

객관적이고 투명한 평가 체계

기존의 AI 모델 평가는 대부분 개발사에서 자체적으로 수행하거나 특정 벤치마크 데이터셋을 기반으로 했습니다. 하지만 LMArena는 실제 사용자들의 다양한 질문과 실사용 시나리오를 바탕으로 평가가 이루어지기 때문에 훨씬 현실적이고 객관적인 결과를 얻을 수 있습니다. 부작위 비교 투표 방식을 채용하여 공정하고 투명한 평가를 지향하는 이 시스템은 AI 업계 전체의 발전에 중요한 역할을 하고 있습니다.

개발자 커뮤니티에 미치는 영향

초보 개발자들에게 LMArena는 단순한 평가 도구를 넘어서 학습 플랫폼의 역할도 합니다.

다양한 AI 모델들이 동일한 문제에 어떻게 접근하는지 관찰할 수 있고, 어떤 답변이 더 나은지 판단하는 과정에서 자연스럽게 AI와 개발에 대한 이해도가 높아집니다. 또한 커뮤니티 구성원들의 투표 결과를 통해 업계 트렌드와 선호도를 파악할 수 있어서, 개발자로서의 안목을 기르는 데도 도움이 됩니다.

AI 산업 발전에 기여하는 생태계

LMArena의 평가 결과는 AI 개발사들에게도 중요한 피드백을 제공합니다.

실제 사용자들의 선호도를 바탕으로 한 데이터는 모델 개선 방향을 설정하는 데 귀중한 자료가 되며, 이는 결국 더 나은 AI 서비스의 개발로 이어집니다. 오픈소스이며 웹 브라우저를 통해 접근 가능한 특성 덕분에 전 세계 누구나 이러한 생태계에 기여할 수 있으며, 이는 AI 민주화에도 중요한 역할을 하고 있습니다.


5. 초보 개발자를 위한 LMArena 활용 팁

학습 도구로 활용하기

LMArena를 단순한 비교 사이트가 아닌 학습 플랫폼으로 활용해보기를 추천 드립니다.

같은 프로그래밍 문제에 대해 서로 다른 AI 모델들이 제시하는 해결책을 비교하면서, 어떤 접근 방식이 더 효율적인지 스스로 판단해보는 연습을 할 수 있습니다. 이 과정에서 코드의 가독성, 성능, 유지보수성 등을 평가하는 능력이 자연스럽게 향상됩니다. 또한 다른 사용자들의 투표 결과와 자신의 판단을 비교해보면서 개발자로서의 안목을 기를 수 있습니다.

프로젝트에 적합한 AI 도구 선택하기

개인 프로젝트나 학습 과정에서 AI 도구를 활용하고자 할 때, LMArena의 리더보드와 카테고리별 성능 데이터를 참고하면 현명한 선택을 할 수 있습니다.

예를 들어 웹 개발 프로젝트를 진행 중이라면 WebDev Arena의 결과를 확인하고, 다국어 지원이 필요한 서비스를 개발한다면 각 언어별 성능 데이터를 살펴보세요. 무료로 사용할 수 있는 플랫폼이므로 부담 없이 여러 번 테스트해보며 자신의 요구사항에 가장 적합한 모델을 찾을 수 있습니다.

커뮤니티 참여를 통한 네트워킹

LMArena는 전 세계 개발자들과 AI 연구자들이 모이는 글로벌 커뮤니티입니다.

정기적으로 평가에 참여하고 의미 있는 투표를 하다 보면 자연스럽게 이 커뮤니티의 일원이 됩니다. 흥미로운 질문이나 창의적인 프롬프트를 공유하면 다른 사용자들과 교류할 기회도 생기며, 이는 개발자로서의 네트워크를 확장하는 좋은 방법이 될 수 있습니다. 오픈소스 프로젝트의 특성상 기여할 기회도 많으므로, 관심이 있다면 GitHub 저장소를 확인해보시기 바랍니다.


6. 화제의 주인공 'nano banana' 모델 사용해보기

nano banana가 특별한 이유

2025년 8월 중순, LMArena에 등장한 'nano banana' 모델은 말 그대로 AI 이미지 생성 분야에 혁신을 가져왔습니다. 기존의 GPT-4 Image나 Imagen4와 같은 모델들과 비교했을 때, 사용자의 프롬프트 이해도가 월등히 높고 공간 인식 능력이 뛰어나다는 점에서 큰 주목을 받았습니다.

특히 한국 커뮤니티에서는 서브컬처 스타일의 고퀄리티 피규어 이미지 생성 능력 때문에 폭발적인 인기를 끌고 있습니다. 구글에서 개발한 것으로 추정되는 이 모델은 기존 모델들이 해내지 못했던 세밀한 디테일과 정확한 프롬프트 반영을 보여주고 있어, 이미지 AI 업계의 새로운 기준점이 되고 있습니다.

하지만 nano banana를 경험하는 것은 쉽지 않습니다. LMArena의 특성상 여러 모델 중에서 랜덤하게 선택되기 때문에, 목표로 하는 모델을 만나려면 인내심이 필요합니다. 보통 4~5번 정도 반복해야 nano banana가 생성한 이미지를 볼 수 있으며, 그 순간 다른 모델과의 품질 차이를 확연히 느낄 수 있습니다. 이러한 희소성이 오히려 사용자들의 호기심을 자극하고, 더 많은 사람들이 LMArena를 방문하게 만드는 계기가 되고 있습니다.

Text-to-Image 실전 테스트 가이드

nano banana의 text-to-image 성능을 테스트해보기 위한 실제 프롬프트 예시들을 소개합니다.

LMArena에 접속한 후 Generate Images 아이콘을 클릭하고 다음과 같은 프롬프트들을 입력해보세요.

  • 첫 번째 추천 프롬프트는 "A cute anime girl with long silver hair, wearing a blue school uniform, standing in a cherry blossom garden, soft lighting, detailed eyes, high quality"입니다. 이런 서브컬처 스타일의 프롬프트에서 nano banana는 특히 뛰어난 성능을 보여줍니다. 여러분은 어떤 모델에서 생성한 이미지가 더 맘에 드시나요?, 저는 두번째 모델인 구글의 imagen-4.0모델이 요청한 프롬프트를 정확히 이해하고 생성한듯 하네요.

애니메이션 이미지 생성시 모델간 비교 평가 ❘ LMArena.io
애니메이션 이미지 생성시 모델간 비교 평가 ❘ LMArena.io

  • 두 번째로 시도해볼만한 프롬프트는 "A futuristic robot cat with glowing blue eyes, sitting on a neon-lit cityscape rooftop at night, cyberpunk style, highly detailed, 4K quality"입니다. 이 프롬프트는 복잡한 배경과 다양한 요소들이 조합된 상황에서 nano banana가 얼마나 정확하게 공간을 인식하고 구성하는지 확인할 수 있습니다. 여기서는 Seedream-3와 photon모델을 비교하교 있네요. 저는 Seedream-3에 한표를 줍니다.

미래의 로봇 고양이를 형상화하는 모델 간 비교 ❘ LMArena.io
미래의 로봇 고양이를 형상화하는 모델 간 비교 ❘ LMArena.io

  • 세 번째 추천 프롬프트는 "A cozy coffee shop interior with wooden furniture, warm lighting, steam rising from a cup, books on the shelves, photorealistic style"로, 사실적인 이미지 생성 능력을 테스트해볼 수 있습니다. 개인의 취향에 따라 선택이 어려워 보이긴 하네요. 저는 왼쪽 모델을 선택합니다. 

따뜻함이 느껴지는 카페 이미지 생성 비교 ❘ LMArena.io
따뜻함이 느껴지는 카페 이미지 생성 비교 ❘ LMArena.io

역시나 '나노바나나'는 등장하지 않습니다. 언제쯤 만나볼 수 있을지 그냥 애타게 기다리기만 하네요...

Image-to-Image 변환의 마법

nano banana의 진짜 실력은 Image-to-Image 기능에서 더욱 빛을 발합니다.

기존 이미지를 업로드하고 "Transform this into anime style with magical effects"라는 프롬프트를 입력해보세요.

또는 "Convert this photo to a cyberpunk version with neon lights and futuristic elements"같은 스타일 변환 프롬프트도 매우 흥미로운 결과를 보여줍니다. 특히 게임 스크린샷이나 일반 사진을 피규어 스타일로 변환하는 작업에서는 다른 AI 모델들이 따라올 수 없는 수준의 품질을 보여줍니다.

Image-to-Image는 새롭게 생성되는 이미지보다 변환하는 과정에 많은 컴퓨팅 자원이 소모되는듯 합니다. 일반적인 Text-to-Image보다 생성시간이 오래 걸릴 수 있으니 결과가 나올때 까지 조금 더 기다리셔야 합니다(5배 이상의 시간 소요됨)

 

실제로 테스트해볼만한 시나리오는 다음과 같습니다.

먼저 자신의 셀피나 반려동물 사진을 업로드하고 "Transform into a cute 3D figurine style, pastel colors, kawaii aesthetic, high quality rendering"이라는 프롬프트를 입력해보세요.

 

또 다른 재미있는 시도는 풍경 사진을 애니메이션 배경으로 변환하는 것입니다. "Convert this landscape into Studio Ghibli animation style, dreamy atmosphere, soft colors, detailed background art"라는 프롬프트를 사용하면 놀라운 결과를 얻을 수 있습니다.

 

변경하기전 원본 이미지

지브리 애니메이션 풍의 이미지로 변경하기 전의 원본 이미지
지브리 애니메이션 풍의 이미지로 변경하기 전의 원본 이미지

변경 후의 생성 이미지

여러분은 어떤 이미지 변경결과를 더 선호하시나요? 직접  LMArena.io를 방문해서 자신만의 이미지를 이용해서 모델들을 테스트해보세요.

지브리 애니메이션 풍으로 변경된 생성형 이미지
지브리 애니메이션 풍으로 변경된 생성형 이미지

캐릭터 일관성 유지의 혁신 : Nano Banana의 핵심 강점

기존 AI 이미지 생성 도구들의 가장 큰 한계는 동일한 캐릭터를 여러 장면에서 생성할 때 얼굴, 체형, 의상 등이 미묘하게 달라지는 문제였습니다. 하지만 Nano Banana는 한번 생성된 캐릭터의 정체성을 일관되게 유지하는 능력이 뛰어납니다. 많은 사용자들이 90-95%의 일관성을 보고하고 있으며, 이는 기존 AI 도구들을 훨씬 뛰어넘는 수준입니다. 이러한 일관성은 단순히 얼굴 인식을 넘어서 캐릭터의 전체적인 느낌, 스타일, 심지어 작은 디테일까지도 놀라울 정도로 정확하게 유지합니다. 마치 실제 배우가 여러 장면을 연기하는 것처럼, AI가 생성한 캐릭터도 다양한 상황과 각도에서 동일한 정체성을 유지할 수 있게 된 것입니다.

 

실제 일관성을 유지하는 프롬프트 예시

여성캐릭터 정의 : 
여성캐릭터는 동양인(한국인)으로 25세의 아름다운 커리어 우먼,
숏컷헤어에 한국형 메이크업을 하고 있으며, 
매우 스마트하고, 깔끔한 이미지를 가지고 있음, 

한 명의 여성 캐릭터가 다음과 같은 장면에서 등장 : 
첫 번째는 카페에서 커피를 마시는 모습, 
두 번째는 같은 여성이 공원에서 산책하는 모습, 
세 번째는 사무실에서 일하는 모습. 
모든 장면에서 동일한 얼굴과 헤어스타일을 유지해주세요.

Female Character Definition:
The female character is a beautiful, 25-year-old career woman of Asian descent (Korean).
She has short hair and Korean-style makeup.
She has a very smart and neat image.

A single female character appears in the following scenes:
The first scene shows her drinking coffee in a cafe.
The second scene shows the same woman walking in a park.
The third scene shows her working in an office.
Please maintain the same facial features and hairstyle in all scenes.

등장인물의 일관성을 유지하는 것은 일부 다른 모델에서도 유연하게 결과물을 내보내고 있습니다.
등장인물의 일관성을 유지하는 것은 일부 다른 모델에서도 유연하게 결과물을 내보내고 있습니다.

 

왼쪽은 'gpt-image-1'모델, 오른쪽은 'qwen-image-prompt-extend'모델의 결과물입니다. 제가 요청한 프롬프트를 잘 수행한 모델은 왼쪽 모델로 판단했습니다.  그러나 오픈소스의 이미지 생성과 관련된 모델은 qwen모델을 많이 참조하고 그 결과물도 나쁘지 않아 많이들 사용하고 있지만, 결과물은 약간의 애니메이션 같은 결과물을 내보내고 있는점도 참고하는게 좋을 듯 하네요. 

실제 테스트 결과와 성능 분석

실제로는 나노바나나를 만나보지 못했습니다. 나노바나나 만나기기 하늘의 별따기 같은데 다른 블로거들어 어떻게들 그렇게 잘 만나서 글을 작성하는지 부럽기도 합니다. 

실제로 같은 캐릭터로 10장 넘게 생성해본 사용자들은 정말 놀라울 정도로 일관성이 유지된다고 보고하고 있으며, 이는 기존에는 상상도 못했던 결과라고 평가합니다.

특히 한국의 한 사용자는 '케데헌'이라는 캐릭터를 활용하여 다양한 시나리오에서 테스트해본 결과, 캐릭터의 기본 특징이 완벽하게 유지되면서도 각 상황에 맞는 자연스러운 표현이 가능함을 확인했습니다. 초기 평가에서는 블러 처리된 사진을 선명하게 만들거나 두 이미지를 하나로 합치는 것과 같은 까다로운 작업에서도 높은 완성도를 보여주며 압도적인 성능으로 주목받고 있습니다. 이러한 일관성은 단순한 기술적 성취를 넘어서, 창작자들이 꿈꿔왔던 진정한 의미의 'AI 어시스턴트'의 가능성을 보여주고 있습니다.

nano banana 사냥의 팁과 전략

nano banana 모델을 만나는 것은 일종의 '사냥'과 같습니다.

확률적으로 등장하기 때문에 몇 가지 전략이 필요합니다. 먼저 인내심을 갖고 최소 5-10번은 시도해보세요. 같은 프롬프트를 반복 사용하는 것보다는 조금씩 다른 버전으로 변화를 주면서 시도하는 것이 더 효과적입니다.

예를 들어 "cute anime girl"에서 시작해서 "adorable manga character", "kawaii animation style girl" 등으로 점진적으로 변화를 주어보세요.

 

또 다른 팁은 시간대를 고려하는 것입니다. 한국 시간 기준으로 새벽이나 오전 시간대에는 상대적으로 사용자가 적어서 nano banana를 만날 확률이 높아지는 경향이 있습니다. 그리고 결과가 나왔을 때 명확하게 품질 차이를 느낄 수 있는 프롬프트를 선택하는 것도 중요합니다. 복잡하고 디테일한 요구사항이 포함된 프롬프트일수록 nano banana의 진가를 더 잘 확인할 수 있습니다.


 AI 시대의 나침반, LMArena

'nano banana' 모델 하나를 소개하려던 계획에서 시작해 LMArena 전체를 탐구하게 된 이번 여정은 오히려 더 큰 가치를 발견하는 기회였습니다.

LMArena는 단순히 AI 모델들을 순위로 매기는 사이트가 아니라, 개발자들이 AI 시대를 현명하게 항해할 수 있도록 도와주는 나침반 같은 존재입니다. 특히 초보 개발자들에게는 다양한 AI 도구들의 실제 성능을 객관적으로 파악할 수 있는 귀중한 학습 자료이자, 실무에 바로 활용할 수 있는 실용적인 정보원이기도 합니다.

 

앞으로 AI 기술이 더욱 발전하고 새로운 모델들이 계속 등장할 텐데, LMArena 같은 플랫폼의 중요성은 더욱 커질 것입니다. 광고나 마케팅에 의존하지 않고 실제 사용자들의 경험을 바탕으로 한 평가 시스템은 개발자들이 올바른 기술적 선택을 하는 데 필수적인 도구가 될 것입니다. 무료로 제공되는 이러한 가치 있는 플랫폼을 적극 활용해서 AI 시대의 개발자로서 한 단계 성장하는 기회로 삼아보시기 바랍니다. 지금 바로 lmarena.ai에 접속해서 여러분만의 AI 모델 평가 여정을 시작해보세요.