[AI 주간 브리핑] 2025-36 | OpenAI GPT-5 기대수준 미달

작성기준 : 2025년 8월 27일 ~ 9월 2일

이번 주는 AI 업계에 냉정한 현실이 드러난 한 주였어요. "PhD 수준"이라던 GPT-5의 기본 실수들과 MIT의 충격적인 95% 기업 AI 실패율 연구는 과도한 기대와 현실 사이의 간극을 적나라하게 보여줬습니다.

하지만 말레이시아의 첫 국산 AI 칩이나 야놀자의 한국어 특화 모델 공개처럼 아시아 기업들의 기술 자립 노력은 글로벌 AI 생태계의 새로운 변화를 예고하고 있습니다. Anthropic의 AI 오남용 사례들이 공개되면서 기술 발전만큼 중요한 것이 안전장치 마련임을 다시 한 번 확인했고, 결국 AI의 미래는 기술력보다는 현실적 적용과 책임감 있는 개발에 달려있다는 생각이 드네요.

핫이슈

OpenAI GPT-5 출시, "PhD 수준" 약속과 달리 기본 실수 연발로 사용자 실망

OpenAI가 8월 7일 "PhD 수준 지능"이라고 홍보하며 출시한 GPT-5가 예상과 달리 기본적인 작업에서 실수를 범하며 사용자들의 혹독한 비판을 받고 있어요. 미국 지도에서 주 이름을 "Yirginia"로 잘못 표기하거나, 12명의 대통령 얼굴을 요청했는데 9명만 그리는 등의 문제가 발생했죠. 샘 알트만 CEO는 "totally screwed up" 했다고 인정하며 사용자들의 불만에 따라 이전 모델인 GPT-4o를 다시 제공하게 되었어요.
원문 출처 : https://www.cnn.com/2025/08/14/business/chatgpt-rollout-problems

ChatGPT는 AI에서 AGI로 넘어가는 신 기술로 발표하였지만, AI의 한계점을 드러내고 있습니다. ❘ OpenAI Home

MIT 연구 충격 발표: 기업 AI 프로젝트 95% 실패, 수익 창출 못해

MIT의 NANDA 이니셔티브가 발표한 연구에 따르면 기업들의 95%에 달하는 AI 파일럿 프로그램이 실질적인 수익 창출에 실패했다고 해요. 150명의 임원 인터뷰, 350명의 직원 설문, 300개 AI 프로젝트 분석 결과 AI 도구가 개인 생산성은 높였지만 기업 전체 손익(P&L)에는 미미한 영향만 미쳤다는 거예요. 연구에서는 자체 개발보다는 전문업체 구매가 67% 성공률로 2배 더 효과적이라고 밝혔어요.

원문 출처 : https://fortune.com/2025/08/18/mit-report-95-percent-generative-ai-pilots-at-companies-failing-cfo/

주요 기술 발전

말레이시아, 첫 국산 AI 칩 MARS1000 출시로 글로벌 AI 칩 경쟁 가세

말레이시아 현지 설계업체 SkyeChip이 8월 25일 MARS1000이라는 7nm 공정의 엣지 AI 프로세서를 공개했어요. 이는 말레이시아가 단순 제조 허브에서 벗어나 AI 칩 설계 강국으로 도약하려는 야심찬 시도로 보여져요. 이 칩은 스마트 농업, 산업 4.0, 스마트 시티, 자율 로봇 등에 활용될 예정이며, 클라우드 서버 없이 로컬에서 AI 추론을 처리할 수 있다고 해요. 정부가 250억 링깃(약 60억 달러)을 투자하며 AI 생태계 구축에 적극 나서고 있어요.
원문 출처 : https://www.bloomberg.com/news/articles/2025-08-25/malaysia-unveils-first-ai-device-chip-to-join-global-race

야놀자, 번역 특화 AI 모델 '이브 로제타' 오픈소스로 공개

야놀자가 자체 개발한 번역 특화 AI 모델 '이브 로제타'를 허깅 페이스에 오픈소스로 공개했어요. 이 모델은 한국어를 포함한 다국어 번역에 최적화된 범용 대형언어모델(LLM)로, 텍스트 생성, 콘텐츠 요약, 언어 번역, 감성 분석 등의 기능을 제공해요. 특히 영어, 중국어 기반으로 작동하는 다른 번역 모델들과 달리 한국어에 특화되어 개발된 점이 주목받고 있어요. 국내 기업이 자체 AI 모델을 오픈소스로 공개한 것은 AI 기술 생태계 발전에 기여할 것으로 기대돼요.
원문 출처 : https://news.daum.net/tech

Anthropic, Claude Opus 4.1 출시로 코딩 성능 대폭 향상

Anthropic이 8월 5일 Claude Opus 4.1을 출시했어요. 이는 Opus 4의 업그레이드 버전으로 특히 에이전틱 작업, 실제 코딩, 추론 능력이 크게 개선되었다고 해요. SWE-bench Verified에서 74.5%의 성과를 달성하며 멀티파일 코드 리팩토링 분야에서 뛰어난 성능을 보였어요. GitHub과 Rakuten Group 같은 기업들이 대규모 코드베이스에서 정확한 수정 사항을 찾아내는 데 탁월하다고 평가하고 있어요.
원문 출처 : https://www.anthropic.com/news/claude-opus-4-1

Google, Gemini 2.5 Flash Image 모델로 이미지 생성 혁신

Google이 8월 26일 Gemini 2.5 Flash Image 모델(일명 nano-banana)을 발표했어요. 이 최첨단 이미지 생성 및 편집 모델은 여러 이미지를 하나로 합성하고, 캐릭터 일관성을 유지하며, 자연어를 사용한 정확한 편집이 가능해요. 특히 Gemini의 세계 지식을 활용해 기존 이미지 생성 모델들이 갖지 못했던 깊은 의미적 이해를 제공한다고 해요. 가격은 이미지당 약 0.039달러로 책정되어 경쟁력 있는 가격 정책을 보여주고 있어요.

원문 출처 : https://developers.googleblog.com/en/introducing-gemini-2-5-flash-image/

Anthropic, Claude Sonnet 4에 100만 토큰 컨텍스트 윈도우 지원 추가

Anthropic이 8월 12일 Claude Sonnet 4가 최대 100만 토큰의 컨텍스트를 지원한다고 발표했어요. 이는 기존 대비 5배 증가한 것으로, 75,000줄 이상의 코드베이스나 수십 편의 연구 논문을 한 번에 처리할 수 있게 됐어요. 대규모 코드 분석, 문서 합성, 법률 계약서나 기술 명세서 같은 광범위한 문서 세트 처리에 특히 유용하다고 해요. 특히 프롬프트 캐싱과 결합하면 지연시간과 비용을 모두 줄일 수 있다고 강조했어요.

원문 출처 : https://www.anthropic.com/news/1m-context

xAI, 빠른 코딩 특화 모델 grok-code-fast-1 출시

xAI가 8월 28일 grok-code-fast-1이라는 빠르고 경제적인 추론 모델을 출시했어요. 이 모델은 에이전틱 코딩에 특화되어 있으며, 기존 Grok 4의 강력한 성능을 유지하면서도 더 빠른 속도와 경제성을 제공한다고 해요. 특히 CLI 통합을 지원해 개발자들이 선호하는 IDE에서 앱 개발을 확장할 수 있도록 설계되었어요. 이는 7월 출시된 Grok 4 이후 xAI가 약속했던 코딩 전용 모델 출시 계획의 일환이에요.

원문 출처 : https://x.ai/news

중국 텐센트, 다양한 크기의 Hunyuan AI 모델 패밀리 확장

텐센트가 8월 4일 Hunyuan 모델 시리즈를 대폭 확장했어요. 0.5B부터 7B까지 다양한 크기의 모델을 출시하며, 특히 모바일 기기와 엣지 디바이스용으로 최적화된 버전들을 포함했어요. 이들 모델은 온디바이스 사용과 AI 에이전트 개발을 위해 설계되었으며, 프라이버시가 중요한 애플리케이션에서 활용할 수 있어요. 서구 기업들의 성능 대비 비용 경쟁력에서 우위를 점하려는 중국의 전략으로 해석되고 있어요.

원문 출처 : https://champaignmagazine.com/2025/08/10/ai-by-ai-weekly-top-5-august-4-10-2025/

정책 & 비즈니스 동향

OpenAI, 미국 연방정부 전체 직원에게 ChatGPT 제공 결정

OpenAI가 8월 6일 미국 연방정부 전체 직원들에게 ChatGPT를 제공하겠다고 발표했어요. 이는 AI 기술이 정부 업무 효율성 향상에 기여할 것이라는 기대에서 나온 결정으로 보여져요. 현재 ChatGPT는 주당 약 7억 명이 사용하고 있으며, 기업용 제품만으로도 500만 명의 유료 사용자를 확보하고 있다고 해요.

원문 출처 : https://openai.com/index/providing-chatgpt-to-the-entire-us-federal-workforce

한국 교육부, AI 3강 도약 위해 2026년도 예산에 3,336억 원 편성

교육부가 8월 29일 발표한 2026년도 예산안에서 AI 3강 도약 및 이공계 인재 양성을 위해 3,336억 원을 편성했다고 밝혔어요. 이는 새 정부의 국정과제 추진을 위한 것으로, 인공지능 분야의 경쟁력 강화에 정부가 적극 나서고 있음을 보여주는 대목이에요. 전체 교육부 예산 규모는 106조 2,663억 원으로 책정되었어요.

원문 출처 : https://www.aitimes.kr

국방부, AI 정책 논의에서 실행 단계로 전환... 조직·예산·민군 협력 강화

국방부가 8월 29일 국방 AI를 정책 논의 단계에서 실질적인 '실행 단계'로 전환한다고 발표했어요. 조직, 예산, 민군 협력 생태계를 본격적으로 구축하겠다는 계획이에요. 이는 AI 기술이 국방 분야에서도 실질적인 변화를 가져올 것임을 시사하는 중요한 정책 변화로 평가되고 있어요.

원문 출처 : https://www.aitimes.kr

시장 동향/우려사항

AI 버블 우려 확산, Meta AI 부서 축소 검토하며 시장 냉각 신호

AI 업계에 버블 우려가 확산되고 있어요. Meta가 최근까지 AI 인재에게 1억 달러 계약금을 제공하다가 채용을 중단하고 AI 부서 축소를 검토하고 있다고 해요. 샘 알트만 CEO도 AI가 "버블" 상태라고 인정했으며, CoreWeave는 일주일 만에 기업 가치가 40% 급락했어요. 이런 상황들이 AI 투자 열기에 찬물을 끼얹고 있는 상황이에요.

원문 출처 : https://www.cnn.com/2025/08/22/business/ai-vibe-shift-nightcap

국내 ChatGPT 모바일 앱 사용자 2000만 명 돌파, 5개월 만에 2배 성장

국내 ChatGPT 모바일 앱 사용자가 2000만 명을 돌파했다고 해요. 지난 3월 '지브리 프로필 사진' 열풍으로 1000만 명을 기록한 뒤 불과 5개월 만에 2배로 성장한 거예요. 이는 국내에서도 AI 서비스에 대한 관심과 활용도가 급속히 확산되고 있음을 보여주는 지표로 해석되고 있어요.

원문 출처 : https://www.aitimes.com

Gartner, AI 에이전트와 AI-ready 데이터를 2025년 최고 트렌드로 선정

Gartner가 발표한 2025년 AI 하이프 사이클에서 AI 에이전트와 AI-ready 데이터가 가장 빠르게 발전하는 기술로 선정됐어요. 현재 이 두 기술은 "부풀려진 기대의 절정" 단계에 위치하고 있다고 해요. 운영 확장성과 실시간 인텔리전스에 대한 기업들의 강한 관심이 지속적인 투자로 이어지고 있다는 분석이에요.

원문 출처 : https://www.gartner.com/en/newsroom/press-releases/2025-08-05-gartner-hype-cycle-identifies-top-ai-innovations-in-2025

안전성 & 윤리 이슈

Anthropic, AI 오남용 위협 보고서 발표... Claude로 정교한 랜섬웨어 개발 사례 공개

Anthropic이 9월 2일 발표한 AI 오남용 위협 탐지 보고서에서 충격적인 사례들이 공개됐어요. 사이버 범죄자가 Claude를 이용해 정교한 랜섬웨어를 개발하고 400-1200달러에 판매한 사건, 북한발 사기 고용 스킴, 대규모 갈취 작전 등이 확인되었다고 해요. 특히 범죄자들이 AI 없이는 핵심 악성코드 구성요소를 구현할 수 없을 정도로 AI에 의존하고 있다는 점이 우려스러워요. Anthropic은 해당 계정들을 차단하고 악성코드 탐지 시스템을 강화했다고 밝혔어요.

원문 출처 : https://www.anthropic.com/news/detecting-countering-misuse-aug-2025

테크 거대 기업들, AI 추론 모니터링 창구 폐쇄 우려 표명

Google DeepMind, OpenAI, Meta, Anthropic 등 주요 기업들의 연구진들이 AI 시스템의 "사고 과정" 모니터링 능력이 사라질 위험에 대해 경고했어요. 특히 체인 오브 소트(CoTs) 모니터링을 통한 AI 행동 감시가 중요한데, AI가 발전할수록 이런 투명성 확보가 어려워진다는 우려를 표명했어요. AI 안전성 확보를 위해서는 지금 당장 행동에 나서야 한다고 강조하고 있어요.

원문 출처 : https://techxplore.com/news/2025-07-tech-giants-window-ai-urge.html

기타 주목할 발전사항

AI가 가짜 과학 저널 1000개 이상 탐지, 학술 무결성 보호 도구로 활용

콜로라도 대학교 연구팀이 8월 27일 Science Advances지에 발표한 연구에서 AI 도구가 1000개 이상의 "약탈적" 저널을 식별했다고 밝혔어요. 이들 가짜 저널들은 적절한 심사 과정 없이 수백에서 수천 달러를 받고 논문을 게재하고 있었다고 해요. AI가 AI 오남용을 막는 역설적 상황으로, 기술의 양면성을 보여주는 흥미로운 사례가 되고 있어요.

원문 출처 : https://www.sciencedaily.com/releases/2025/08/250830001203.htm

Maisa AI, 기업 AI 실패율 해결 위해 2,500만 달러 투자 유치

유럽 VC인 Creandum이 주도한 시드 라운드에서 2,500만 달러를 조달한 Maisa AI가 주목받고 있어요. 이 스타트업은 MIT 연구에서 밝혀진 95% AI 프로젝트 실패율 문제를 해결하기 위해 모델에 구애받지 않는 셀프서비스 플랫폼인 'Maisa Studio'를 출시했어요. 자연어로 훈련 가능한 디지털 워커를 배포할 수 있다는 점이 특징이에요.

원문 출처 : https://techcrunch.com/2025/08/27/maisa-ai-gets-25m-to-fix-enterprise-ais-95-failure-rate/

이번 주 시사점

이번 주 AI 업계는 기대와 현실 사이의 간극이 뚜렷하게 드러난 한 주였어요. GPT-5의 실망스러운 성능과 MIT 연구의 충격적인 기업 AI 실패율은 과도한 기대치 조정이 필요함을 시사하고 있어요.

단기 전망에서는 AI 투자 열기가 다소 식을 것으로 예상되지만, 말레이시아의 MARS1000 출시나 한국 정부의 적극적인 AI 투자는 글로벌 AI 생태계의 다극화가 가속화될 것임을 보여주고 있어요.
안전성 측면에서는 Anthropic의 위협 보고서가 보여주듯이 AI 기술 발전과 함께 보안 위험도 증가하고 있어 기술 개발과 동시에 안전장치 마련이 필수적이에요.
기업 도입 전략의 경우, MIT 연구 결과는 기술보다 전략이 더 중요함을 시사해요. 자체 개발보다는 검증된 솔루션 구매, 현업 중심의 도입이 성공 확률을 높인다는 점을 참고해야 할 것 같아요.

저작자표시 비영리 변경금지 (새창열림)

'AI 뉴스' 카테고리의 다른 글

[AI 주간 브리핑] 2025-39 \| 메타의 AI 안경 혁신, 웨어러블 AI 시대 개막 (13)	2025.09.23
[AI 주간 브리핑] 2025-38 \| GPT-5 기반 Codex 업그레이드로 코딩 AI시장 강화 (16)	2025.09.16
[AI 주간 브리핑] 2025-37 \| 한국, 'AI 3강' 목표로 국가인공지능전략위원회 출범 (19)	2025.09.10
AI & 로봇 관련 뉴스 채널을 소개합니다 (2)	2025.09.04
[AI 주간 브리핑] 2025-35 \| 엔비디아 2025 2분기 실적 발표 (14)	2025.08.27

화이트 샌드박스

[AI 주간 브리핑] 2025-36 | OpenAI GPT-5 기대수준 미달

핫이슈

OpenAI GPT-5 출시, "PhD 수준" 약속과 달리 기본 실수 연발로 사용자 실망

MIT 연구 충격 발표: 기업 AI 프로젝트 95% 실패, 수익 창출 못해

주요 기술 발전