본문 바로가기
AI 뉴스

[AI 주간 브리핑] 2025-42 | OpenAI DevDay 2025 - 에이전트 시대의 서막

by 피크나인 2025. 10. 14.

2025.10.08 - 10.14

이번 주는 OpenAI DevDay를 중심으로 AI 업계 전반에서 큰 변화들이 일어났어요.
특히 에이전트 기술과 브라우저 통합이 주목받았습니다.


핫이슈

OpenAI DevDay 2025, 에이전트 시대의 서막을 열다

10월 6일, 샌프란시스코 Fort Mason에서 OpenAI DevDay 2025가 개최됐어요. 1,500명 이상의 개발자들이 참석한 이번 행사에서 OpenAI는 에이전트 개발을 중심으로 한 여러 신기술들을 공개했습니다.

 

AgentKit 발표 - 에이전트 구축을 위한 올인원 플랫폼
AgentKit은 에이전트를 구축, 배포, 최적화할 수 있는 완전한 도구 세트예요. Agent Builder(드래그 앤 드롭 방식의 에이전트 구축 도구), ChatKit(채팅 인터페이스 구축), Evals(에이전트 성능 평가 도구), 그리고 Connectors(다양한 데이터 소스 연결)로 구성되어 있어요. 이제 개발자들은 복잡한 에이전트 워크플로우를 훨씬 쉽게 만들 수 있게 됐습니다.

 

ChatGPT에 Apps 기능과 Apps SDK 도입
ChatGPT 내부에서 직접 앱을 구축하고 실행할 수 있는 기능이 추가됐어요. 이는 기존의 Canvas 기능을 크게 확장한 것으로, 개발자들이 ChatGPT 생태계 안에서 더 풍부한 경험을 제공할 수 있게 됐어요.

 

GPT-5 Pro 모델 출시
입력 토큰당 $15, 출력 토큰당 $120이라는 가격으로 GPT-5 Pro가 출시됐어요. 기존 o1-pro($150/$600) 대비 훨씬 저렴한 가격으로 최고 수준의 성능을 제공합니다.

 

Codex 일반 공개
그동안 제한적으로 제공되던 Codex가 드디어 일반 공개됐어요. 개발자들이 더 쉽게 AI 기반 코딩 도구를 활용할 수 있게 됐습니다.

 

AMD와 전략적 파트너십 체결
OpenAI는 AMD와 수백억 달러 규모의 파트너십을 발표했어요. OpenAI는 AMD의 최대 주주 중 하나가 될 예정이며, AMD 칩을 대규모로 배치할 계획이에요. 이는 앞서 발표한 Nvidia와의 $100억 규모 파트너십에 이어 인프라 확장을 위한 전략적 움직임으로 보여요.


주요 기술 발전

Anthropic, 최강 코딩 모델 Claude Sonnet 4.5 출시

10월 9일, Anthropic은 Claude Sonnet 4.5를 공개했어요. 이 모델은 세계 최고의 코딱 모델로 평가받고 있으며, SWE-bench Verified에서 최고 점수를 달성했어요. 특히 복잡한 에이전트 구축과 컴퓨터 사용에서 뛰어난 성능을 보여줍니다.

  • OSWorld 벤치마크에서 61.4% 달성 (4개월 전 Sonnet 4의 42.2%에서 크게 향상)
  • 복잡한 멀티스텝 작업에서 30시간 이상 집중력 유지 가능
  • 추론 및 수학 능력 대폭 향상
  • 가격은 Claude Sonnet 4와 동일 ($3/$15 per million tokens)

Claude for Chrome 확장 기능 출시
Claude가 브라우저에서 직접 작동하는 Chrome 확장 기능이 Max 플랜 사용자들에게 제공되기 시작했어요. 이를 통해 Claude는 웹사이트를 탐색하고, 스프레드시트를 채우고, 작업을 완료할 수 있어요. 다만 프롬프트 인젝션 공격 등 보안 취약점을 해결하기 위해 1,000명의 테스터로 제한된 파일럿 테스트를 진행 중이에요.

 

Claude Opus 4.1 출시
Claude Opus 4.1도 함께 출시됐어요. SWE-bench Verified에서 74.5%를 달성하며 에이전트 작업, 실제 코딩, 추론에서 향상된 성능을 보여줍니다.

 

Google, Gemini 2.5 Deep Think와 Gemini for Home 발표

Google은 AI Ultra 구독자들에게 Gemini 2.5 Deep Think를 제공하기 시작했어요. 이는 Gemini의 가장 고급 추론 모드로, 더 오래 생각하고 여러 병렬 사고 스트림을 동시에 생성할 수 있어요. 복잡한 문제 해결, 과학적/수학적 연구, 코딩 작업에 특화되어 있습니다.

 

Gemini for Home 출시 (10월 1일)
Google Home 생태계가 Gemini로 완전히 업그레이드됐어요. Google Assistant를 대체하는 Gemini for Home은 스마트 스피커, 디스플레이, 카메라, 초인종 등에서 작동하며 더 자연스러운 대화와 복잡한 명령 처리가 가능해요.

  • 기본 기능은 무료로 제공
  • Gemini Live, AI 기반 알림 등 고급 기능은 Google Home Premium 구독 필요 (월 $10)
  • 미국에서 10월 28일부터 얼리 액세스 시작

Gemini 2.5 Flash 업데이트
9월 25일에는 Gemini 2.5 Flash와 Flash-Lite의 업데이트 버전이 출시됐어요. 더 나은 에이전트 도구 사용, 복잡한 지침 따르기, 멀티모달 기능 향상이 주요 개선사항이에요.

 

Figure AI, "로봇계의 모델 T" Figure 03 공개

10월 9일, Figure AI가 3세대 휴머노이드 로봇 Figure 03을 공개했어요. 이 로봇은 실험실 프로토타입을 넘어 대량 생산을 위해 처음부터 설계된 범용 로봇으로, 업계에서는 "로봇계의 모델 T"라고 부르고 있어요. Figure는 Nvidia, Jeff Bezos, OpenAI, Microsoft 등으로부터 $1B 투자를 유치하며 $39B 밸류에이션을 달성했고, TIME지가 선정한 2025년 베스트 발명품에 이름을 올렸습니다.

이제 가정 안으로 깊숙히 침투할 수 있는 로봇이 발표되었습니다. ❘ https://figure.ai
이제 가정 안으로 깊숙히 침투할 수 있는 로봇이 발표되었습니다. ❘ https://figure.ai

 

대량 생산을 위한 혁신적 설계

Figure 03의 가장 큰 특징은 대량 생산을 전제로 한 설계예요. 기존의 비싼 CNC 가공 대신 다이캐스팅과 사출성형 공정을 활용해 단가를 대폭 낮췄어요. 샌호세의 새로운 BotQ 공장에서 연간 12,000대를 생산할 계획이며, 4년 내 100,000대 생산을 목표로 하고 있습니다. 이는 휴머노이드 로봇 업계에서 전례 없는 생산 규모예요.

 

Helix AI로 학습하는 가정용 로봇

Figure 03은 자체 개발한 Helix vision-language-action AI 시스템을 탑재하고 있어요. 놀랍게도 단 80시간의 영상만으로 수건 개는 법을 학습했다고 해요. 빨래 개기, 식기세척기 채우기, 테이블 정리, 식물에 물 주기 등 가정 내 다양한 작업을 수행할 수 있어요. 새로운 카메라 시스템은 프레임 속도가 2배, 지연시간은 1/4로 줄었으며, 시야각은 60% 넓어졌어요.

 

가정 환경을 위한 안전 설계

가정에서 안전하게 사용하기 위해 Figure 03은 Figure 02 대비 9% 가벼워졌고, 부피도 줄었어요. 단단한 금속 부품 대신 부드러운 천 소재로 덮여 있으며, 핀치 포인트에는 다밀도 폼이 전략적으로 배치돼 있어요. 배터리는 UN38.3 안전 기준을 충족하며, 발에 내장된 무선 충전 코일로 2kW 충전이 가능해요. 겉감은 세탁 가능하고 공구 없이 쉽게 교체할 수 있어요.

 

혁신적인 손 기술

각 손에는 광각 팜 카메라가 내장되어 있고, 손끝에는 겨우 3그램의 힘도 감지할 수 있는 촉각 센서가 장착돼 있어요. 이를 통해 섬세한 물건 조작이 가능하며, 접시를 수거하거나 한 손으로 쓰레기를 쓸어 다른 손으로 받는 등의 복잡한 동작을 수행할 수 있어요.

 

2026년 출시 목표, 하지만 아직은...

Figure AI는 2026년까지 가정에서 대부분의 작업을 자율적으로 수행할 수 있는 로봇을 만들겠다는 목표를 제시했어요. 하지만 출시 당시에는 실제 가정용으로 완전히 준비되지 않을 것이며, 먼저 선별된 파트너들에게 테스트용으로 제공될 예정이에요. 가격은 공개되지 않았지만 약 $20,000 수준으로 예상되고 있어요.


참고 동영상을 꼭 시청해보세요. 영화속 미래가 눈앞에 와있는 느낌이 드실거예요.

Introducing of FIGURE 03 | Youtube

정책 & 비즈니스 동향

유럽연합, AI 산업 및 과학 전략 발표

10월 8일, 유럽위원회는 Apply AI StrategyAI in Science Strategy를 발표했어요. 4월에 발표한 AI Continent Action Plan의 다음 단계로, 유럽이 AI 글로벌 리더가 되기 위한 구체적인 실행 계획이에요.

Apply AI Strategy는 주요 산업과 공공 부문에서 AI 사용을 가속화하고, 인프라·데이터·테스트 시설을 연결하여 시장 출시 시간을 단축하는 것을 목표로 해요. AI in Science Strategy는 과학 연구에서 AI 활용을 혁신하는 데 초점을 맞추고 있습니다.

 

Anthropic, IBM·Deloitte와 대규모 파트너십 체결

10월 7일, Anthropic은 IBM과의 전략적 파트너십을 발표했어요. IBM의 통합 개발 환경에 Claude 모델이 탑재되며, 기업용 AI 에이전트 구축·배포·유지를 위한 가이드도 공동 제작했어요.

하루 전인 10월 6일에는 Deloitte의 전 세계 50만 명 직원에게 Claude를 제공하는 계약을 발표했는데, 이는 Anthropic의 역대 최대 기업 도입 사례예요.

 

OpenAI, 악의적 AI 사용 차단 리포트 발표

10월 7일, OpenAI는 악의적인 AI 사용을 탐지하고 차단한 사례를 담은 보고서를 발표했어요. 2024년 2월 이후 40개 이상의 네트워크가 정책 위반으로 차단됐으며, 권위주의 정권의 인구 통제 시도, 사기, 악성 사이버 활동, 비밀 영향력 작전 등이 포함되어 있어요.


시장 동향

Meta, Llama 생태계 급속 확장

Meta는 Llama 모델이 650만 회 이상 다운로드됐으며, Meta AI가 연말까지 세계에서 가장 많이 사용되는 AI 어시스턴트가 될 것으로 전망했어요. 월간 활성 사용자가 거의 6억 명에 달합니다.

  • Scout: 단일 H100 GPU에서 실행 가능한 17B 활성 파라미터 모델 (총 109B 파라미터, 10M 토큰 컨텍스트)
  • Maverick: 17B 활성 파라미터, 128개 전문가 (총 400B 파라미터, 1M 토큰 컨텍스트)
  • Behemoth: 288B 활성 파라미터 (아직 출시 전, GPT-4.5, Claude Sonnet 3.7, Gemini 2.0 Pro를 능가한다고 주장)

Llama는 네이티브 멀티모달(텍스트+이미지 입력, 텍스트 출력)을 지원하는 첫 오픈 웨이트 모델이며, Mixture-of-Experts 아키텍처를 사용해 효율성을 극대화했어요.

 

전 DeepMind 연구자들, Reflection AI에 $2B 투자 유치

10월 10일, 전 Google DeepMind 연구자들이 설립한 Reflection AI가 $2B을 유치하며 밸류에이션 $8B을 달성했어요. 불과 7개월 전 $545M 밸류에이션에서 15배 증가한 수치예요.

Reflection AI는 OpenAI, Anthropic 같은 폐쇄형 연구소에 대한 오픈소스 대안이자, DeepSeek에 대한 미국의 답변으로 자리매김하려 해요. DeepSeek, Qwen, Kimi 등 중국 모델들이 오픈소스로 세계 표준을 만들어가는 것에 대한 위기감이 투자 동력이 됐습니다.


중국 AI 동향

Kimi K2, "또 하나의 DeepSeek 순간"

7월, Moonshot AI가 출시한 Kimi K2가 오픈 모델 중 최고 수준의 성능을 보이며 주목받고 있어요. 1T 파라미터의 Mixture-of-Experts 모델로, 코딩과 에이전트 작업에서 Claude 3.5 Sonnet과 비견되는 성능을 보여요.

K2는 DeepSeek V3를 SWE-Bench, LiveCodeBench, AIME, GPQA 등 다양한 벤치마크에서 명확히 앞서며, "현재 사용 가능한 최고의 오픈 모델"로 평가받고 있어요.

 

중국 오픈소스 AI의 급부상

Hugging Face의 오픈소스 모델 리더보드 상위 10개 중 8개가 중국 모델이에요. GLM-4.5가 1위를 차지했고, Qwen과 Tencent가 뒤를 잇고 있어요. K2는 9위에 랭크됐습니다.

Zhipu.AI의 GLM-4.5, Alibaba의 Qwen 3 업데이트, Tencent의 Hunyuan Turbo S 등 중국 AI 기업들이 잇달아 주요 업데이트를 발표하며 경쟁이 가열되고 있어요.


안전성 & 윤리 이슈

Anthropic, 사용자 데이터 사용 정책 업데이트

Anthropic은 10월 8일까지 사용자들에게 선택권을 주는 새로운 정책을 도입했어요. 사용자들은 자신의 대화를 모델 개선에 사용하도록 허용할지 선택할 수 있어요. 허용하면 데이터 보관 기간이 30일에서 5년으로 연장되지만, 이는 새로운 대화나 재개된 대화에만 적용돼요.

이 정책은 Free, Pro, Max 플랜 사용자에게만 적용되며, 기업용 플랜(Team, Enterprise, API)에는 적용되지 않아요.

 

Claude for Chrome의 보안 도전 과제

Anthropic이 공개한 레드팀 테스트 결과, 안전 장치 없이는 프롬프트 인젝션 공격 성공률이 23.6%에 달했어요. 예를 들어, 악성 이메일이 "보안을 위해 이메일을 삭제해야 한다"고 지시하면 Claude가 확인 없이 이메일을 삭제하는 경우가 있었죠.

이에 Anthropic은 브라우저 사용 AI의 안전성을 최우선으로 두고, 1,000명의 신뢰할 수 있는 파트너들과 제한적 파일럿 테스트를 진행 중이에요.


국내 AI 동향

삼성의 초소형 추론 모델인 TRM의 놀랄만한 성능 

삼성종합기술원(SAIT) 캐나다 몬트리올 연구소가 700만 개의 매개변수로 구성된 초소형 추론 모델 'TRM(Tiny Recursion Model)'을 공개했습니다. TRM은 불과 2개 층으로 구성된 단일 신경망으로 재귀적 추론을 수행하며, 스스로 답을 반복적으로 수정해 최종 답을 찾아냅니다.

이 모델은 구글의 제미나이 2.5 프로와 딥시크 R1 등 수천억~수조 개 매개변수를 가진 대형 모델을 일부 논리 추론 과제에서 앞질렀습니다. ARC-AGI-1 벤치마크에서 45% 정확도를 기록해 제미나이 2.5 프로의 37%, 딥시크 R1의 15.8%를 크게 상회했습니다.

스도쿠-익스트림에서 87.4%, 메이즈-하드에서 85%의 정확도를 달성하며, 기존 계층적 추론 모델(HRM)의 55%를 크게 넘어섰습니다. 이는 '거대화' 위주의 AI 연구 패러다임에 대한 도전으로 평가되며, 자율주행, 로봇, 모바일 등 온디바이스 AI에 응용될 가능성이 높습니다.

 

SK AI Summit 2025 개최 예정

SK그룹이 11월 3-4일 양일간 서울 코엑스에서 국내 최대 AI 컨퍼런스 'SK AI Summit 2025'를 개최해요. 'AI Now & Next'를 주제로 국내외 AI 선도 기업들과 함께 AI 생태계의 현재와 미래를 논의할 예정이에요.

 

정부, AI 개발 전폭 지원 본격화

이재명 정부의 '세계 3대 AI 강국' 공약에 따라, 국민이 직접 사용할 수 있는 AI 개발 사업이 본격화되고 있어요. 전 정부에서 기획됐지만 현 정부 들어 더욱 힘이 실리고 있으며, 여러 업체를 골고루 지원하기보다 확실한 한 곳만 전폭 지원하는 방식이 특징이에요.

다만 글로벌 AI 경쟁이 치열한 상황에서 개발업체 선정과 AI 개발까지 2년 이상 걸리는 일정은 부담으로 작용할 수 있어요.

 


전망 및 시사점

에이전트 시대의 본격화

OpenAI의 AgentKit, Anthropic의 Claude Sonnet 4.5, Google의 에이전트 기능 강화 등, 모든 주요 AI 기업들이 에이전트 기술에 집중하고 있어요. 단순히 대화하는 챗봇에서 복잡한 작업을 자율적으로 수행하는 에이전트로의 전환이 빠르게 진행되고 있습니다.

오픈소스 vs 폐쇄형 모델의 경쟁 심화

중국의 DeepSeek, Kimi K2, Qwen 등 오픈소스 모델들이 놀라운 성능을 보이면서, 미국의 Reflection AI 같은 오픈소스 대항마들이 등장하고 있어요. Meta의 Llama도 650만+ 다운로드를 달성하며 오픈소스의 힘을 증명하고 있습니다.

브라우저 통합의 새로운 장

Anthropic의 Claude for Chrome은 AI가 브라우저 환경에서 직접 작동하는 새로운 패러다임을 제시해요. 보안 문제를 해결하면서도 사용자 경험을 향상시키는 것이 앞으로의 과제가 될 거예요.

인프라 투자 경쟁 가속화

OpenAI의 AMD·Nvidia 파트너십, 삼성·SK의 Stargate 이니셔티브 참여 등, AI 인프라에 대한 투자가 천문학적으로 증가하고 있어요. 이른바 "순환 거래(circular deals)" 논란에도 불구하고, 이러한 투자는 AI 발전의 핵심 동력이 되고 있습니다.


#추천태그
#AI주간브리핑 #OpenAIDevDay #AgentKit #ClaudeSonnet45 #GeminiForHome #Llama4 #KimiK2 #DeepSeek #에이전트AI #생성형AI #AI정책 #오픈소스AI #엔터프라이즈AI #브라우저AI #AI인프라


이번 주 AI 업계는 에이전트 기술을 중심으로 큰 도약을 이뤘어요. 특히 OpenAI DevDay는 개발자들이 더 쉽게 에이전트를 구축할 수 있는 기반을 마련했고, Anthropic과 Google도 각자의 강점을 살린 혁신을 선보였습니다. 중국 오픈소스 모델들의 약진도 눈에 띄는데, 이는 글로벌 AI 경쟁이 더욱 치열해지고 있음을 보여줘요. 다음 주에도 흥미진진한 AI 소식들로 찾아뵙겠습니다!