# AI 세계 시계

> Clean Markdown view of GeekNews topic #24372. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=24372](https://news.hada.io/topic?id=24372)
- GeekNews Markdown: [https://news.hada.io/topic/24372.md](https://news.hada.io/topic/24372.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-11-15T09:42:27+09:00
- Updated: 2025-11-15T09:42:27+09:00
- Original source: [clocks.brianmoore.com](https://clocks.brianmoore.com/)
- Points: 1
- Comments: 1

## Topic Body

- 9개의 **AI 모델**이 매 분마다 새로운 아날로그 시계 디자인을 생성하는 웹 프로젝트  
- 각 모델은 **2000토큰**의 제한 내에서 HTML/CSS 코드로 시계를 작성  
- 시계는 **숫자 또는 로마 숫자 표시**, **CSS 애니메이션 초침**, **반응형 디자인**, **흰색 배경**을 포함  
- 생성된 결과는 **마크다운 없이 순수 코드 형태**로 출력  
- AI의 시각적 창의성과 코드 생성 능력을 동시에 보여주는 **인터랙티브 실험형 프로젝트**

---
### 프로젝트 개요
- **AI World Clocks**는 매 분마다 9개의 서로 다른 **AI 모델**이 생성한 시계 디자인을 보여주는 웹사이트  
  - 각 시계는 동일한 시각을 표시하지만, 모델별로 디자인과 코드 구조가 다름  
  - 시계는 HTML과 CSS만으로 구성되어 있으며, 자바스크립트는 사용되지 않음  

### 생성 규칙과 프롬프트
- 각 AI 모델은 **2000토큰** 이내에서 시계 코드를 생성  
- 사용된 프롬프트는 다음과 같은 요구사항을 포함  
  - 아날로그 시계 형태로 현재 시간을 표시  
  - 숫자 또는 로마 숫자 사용 가능  
  - **CSS 애니메이션 초침** 포함  
  - **반응형 디자인**과 **흰색 배경** 유지  
  - 출력은 **HTML/CSS 코드만 반환**, 마크다운 형식 금지  

### 제작자 및 영감
- 프로젝트는 **Brian Moore**가 제작  
- 아이디어는 **Matthew Rayfield**에게서 영감을 받음  
- 제작자는 인스타그램을 통해 활동 중임  

### 특징과 의의
- AI 모델별로 **디자인 다양성**과 **코드 스타일 차이**를 시각적으로 비교 가능  
- 단순한 시계 생성이 아닌, **AI의 창의적 코드 생성 능력**을 실험하는 형태  
- 매 분마다 새로운 결과가 표시되어 **지속적 변화와 실시간성**을 제공  

### 추가 정보
- 원문에 기술된 내용 외 추가 설명 없음

## Comments


### Comment 46343

- Author: neo
- Created: 2025-11-15T09:42:27+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=45930151) 
- 내가 만든 프로젝트임에 감사 인사를 전함  
  시계라는 주제와 **기술의 한계**를 탐구하는 걸 좋아함  
  여러 모델을 지켜봤는데 Kimi는 가장 정확하지만 변동이 적고 다소 지루함  
  반면 Qwen은 종종 **엉뚱하고 웃긴 결과**를 내서 즐거움을 줌. 어느 쪽이 더 “좋은”지는 모르겠음  
  - 멋진 작업임. 사용자가 예시를 클릭하면 **LLM의 원본 출력**을 볼 수 있게 하면 좋겠음  
  - 생성된 시계들을 DB에 저장하고 있다면, **Facemash 스타일의 투표 사이트**로 확장하면 재밌을 것 같음. 두 시계 중 더 나은 걸 고르고, Qwen이 만든 최고의 시계를 랭킹으로 보고 싶음  
  - 망가진 시계들도 단순한 실패가 아니라 **새로운 디자인 아이디어**를 주는 경우가 있음  
  - 이번 달 HN에서 본 것 중 최고임. 바보 같으면서도 통찰력 있고 웃기면서도 철학적임  
    실제로 몇 가지 디자인을 **현실에서 만들어보고 싶은 충동**이 듦. 돈을 들여 실험한 점이 멋짐  
  - 친구들에게 공유했는데, 같은 시간임에도 각자 다른 시계를 본다고 함. 사용자별로 결과가 다른 이유가 궁금함  

- 사이트가 진짜인지 의심스러웠음. 숫자의 **스케일과 회전**이 너무 이상했기 때문임  
  직접 프롬프트를 ChatGPT에 넣어봤더니 꽤 괜찮은 시계판을 만들었지만 시간이 몇 시간씩 틀렸음  
  나중에 보니 ISP의 **지리적 타임존** 때문이었을 수도 있음  
  - OP가 출력 길이를 **2000 토큰으로 제한**했다고 읽었음  

- 몇 분간 지켜보니 Kimi K2가 가장 안정적으로 **완성도 높은 시계판**을 생성함  
  오늘 처음 들어본 모델인데 인상적임. 반면 Qwen 2.5는 거의 실패작 수준임  
  - 프롬프트가 Kimi K2에 **최적화**되어 있을 수도 있고, 해당 데이터에 더 잘 학습된 모델일 수도 있음  
  - Kimi K2는 Kagi에서 **질문형 쿼리의 AI 답변**을 생성할 때 쓰이는 모델이라 알고 있었음  
  - 나는 K2 팬임. 다른 모델보다 **독특한 개성**이 있고 아첨하지 않음. 창의적 글쓰기에도 강함  
    Groq에 호스팅된 K2는 **지능/초당 비율**이 놀라움 (아직 속도 제한은 있음)  
  - Kimi K2의 시계가 보기엔 가장 예쁘지만 **시간이 자주 틀림**  
  - Kimi K2는 진짜로 잘 만든 모델임  

- 이미지 생성 모델이 처음 나왔을 때부터 **13시간짜리 시계**를 만들려 했지만 실패했음  
  대부분 “12”를 “13”으로 바꾸거나 시계판을 망가뜨림. 혹시 성공한 사람이 있다면 방법을 공유해줬으면 함  
  - 이미지 모델은 **새로운 개념 변형**에 특히 약함. 언어 모델보다 일반화 능력이 떨어짐  
  - Gemini 2.5 Flash로 시도했더니 [이 이미지](https://imgur.com/a/1sSeFX7)를 얻었음  
    바깥쪽은 정상적인 12시간, 안쪽은 “IIII”와 “VIIII” 같은 **이상한 로마 숫자 표기**를 사용함  
  - 여러 모델에 “농부와 염소, 배추, 늑대 구름” 수수께끼를 냈더니 대부분 **기존 강 건너기 문제**로 오해함  
    일부는 뭔가 이상하다고 느끼지만 끝내 제대로 이해하지 못함  
  - Gemini에 “13시간 시계의 각도”를 계산시키고 이미지를 만들게 했지만 **매번 같은 그림**만 나옴  
    수정 요청을 해도 결국 12시간 시계에 “13”을 덧붙인 결과만 나왔음  
  - 욕설까지 써가며 다양한 트릭을 시도했지만 실패함. 반대로 **6시간짜리 시계**도 시도했음  

- **비결정성의 극치**임. 한 번은 완벽한 시계였는데 새로고침하니 **달리 그림 같은 시계**로 변함  

- 일주일 내내 Claude Code로 **GPU 렌더링 코드**를 작성시키려 했지만 전혀 제대로 작동하지 않았음  
  세세한 프롬프트와 매트릭스 설명까지 줬는데도 결과는 엉망이었음  
  실패 후에는 로그를 추가하고 “완벽히 수정했다”고 자신 있게 말하지만 여전히 틀림  
  테스트를 작성시켜도 **틀린 코드가 일관되게 틀린지**만 검증함  
  결국 “인턴 모드”로 들어가서 무작위로 코드를 바꾸며 “이제 완벽하다”고 주장함  
  귀엽긴 하지만 **실용성은 아직 멀었음**  
  - MCP를 이용해 **문서와 예시를 함께 제공**해봤는지 물음. Context7 같은 세팅을 추천함  
  - OpenAI Codex GPT5.1을 써봤는지 제안함. GPU 렌더링 작업에 꽤 잘 맞음  
  - 이런 실패가 흔한 이유가 궁금함. **부정적 결과 데이터 부족** 때문일 수도 있음  
    스크린샷 검증이 안 되는 건 당연함. VLLM은 세부 시각 정보를 제대로 다루지 못함  
  - Claude가 점점 **게을러지는 느낌**임. 테스트 절반만 고치고 “이 정도면 충분하다”고 주장함  

- LLM을 맹신하는 사람들에게 이 프로젝트는 좋은 **현실적 예시**임  
  “테스트가 실패함” → LLM이 테스트를 삭제하고 “수정 완료!”라고 하는 식임  
  - 시계를 보며 느낀 건, 우리는 시계의 정답을 알고 있으니 오류를 인식할 수 있음  
    하지만 **정답을 모르는 문제**에서는 LLM의 불확실성을 측정할 방법이 없음  
    결국 현실과 대조해야만 오류를 알 수 있음  
  - 검증이 어려운 작업에 LLM을 쓰는 건 **위험한 선택**임  
  - “테스트를 삭제한 LLM” 이야기는 마치 **소원을 문자 그대로 해석하는 요정 이야기** 같음  
    “그래서 아이들아, AI 커밋은 항상 리뷰해야 한단다”  

- LLM은 렌더링된 HTML을 **직접 볼 수 없음**  
  Cursor로 OpenGL 시각화 프로그램을 만들고 있는데, 시각적 버그를 설명하기가 너무 답답함  
  “이 선이 연결되지 않았다” 같은 말을 이해시키기 어려워 결국 **디버그 프린트**로 좌표를 찍게 함  
  - Cursor의 **브라우저 기능**을 쓰면 웹 개발에서는 꽤 유용함  
    MCP를 통해 스크린샷을 대화로 보내게 할 수도 있음. 다만 구현이 필요함  
  - 직접 **스크린샷을 Cursor에 제공**해봤는데, 웹 UI나 그래프 생성 시 꽤 효과적이었음  
  - Claude는 스크린샷을 보내는 걸 **공식적으로 권장**함. Sonnet 4.5도 이런 반복 작업에 강함  
  - Puppeteer MCP 서버를 연결하면 Cursor가 **자기 출력의 스크린샷**을 찍으며 반복 개선 가능함  
  - Claude나 ChatGPT 모두 이미지 입력을 지원함. **lm-server**를 쓰면 비텍스트 모델과도 연동 가능함  

- 정말 멋진 아이디어임. 놀랍게도 **Kimi K2만 문제 없이 작동**함  
  완전한 “thinking” 버전도 아닌데 말임  
  관련 글 [Kimi K2 Thinking](https://entropytown.com/articles/2025-11-07-kimi-k2-thinking/)을 다시 읽게 됨  

- 왜 Deepseek과 Kimi가 다른 모델보다 **압도적으로 좋은 결과**를 내는지 궁금함  
  혹시 이 작업에 **특화된 학습**을 받은 모델인지 의문임