AI 세계 시계
(clocks.brianmoore.com)- 9개의 AI 모델이 매 분마다 새로운 아날로그 시계 디자인을 생성하는 웹 프로젝트
- 각 모델은 2000토큰의 제한 내에서 HTML/CSS 코드로 시계를 작성
- 시계는 숫자 또는 로마 숫자 표시, CSS 애니메이션 초침, 반응형 디자인, 흰색 배경을 포함
- 생성된 결과는 마크다운 없이 순수 코드 형태로 출력
- AI의 시각적 창의성과 코드 생성 능력을 동시에 보여주는 인터랙티브 실험형 프로젝트
프로젝트 개요
-
AI World Clocks는 매 분마다 9개의 서로 다른 AI 모델이 생성한 시계 디자인을 보여주는 웹사이트
- 각 시계는 동일한 시각을 표시하지만, 모델별로 디자인과 코드 구조가 다름
- 시계는 HTML과 CSS만으로 구성되어 있으며, 자바스크립트는 사용되지 않음
생성 규칙과 프롬프트
- 각 AI 모델은 2000토큰 이내에서 시계 코드를 생성
- 사용된 프롬프트는 다음과 같은 요구사항을 포함
- 아날로그 시계 형태로 현재 시간을 표시
- 숫자 또는 로마 숫자 사용 가능
- CSS 애니메이션 초침 포함
- 반응형 디자인과 흰색 배경 유지
- 출력은 HTML/CSS 코드만 반환, 마크다운 형식 금지
제작자 및 영감
- 프로젝트는 Brian Moore가 제작
- 아이디어는 Matthew Rayfield에게서 영감을 받음
- 제작자는 인스타그램을 통해 활동 중임
특징과 의의
- AI 모델별로 디자인 다양성과 코드 스타일 차이를 시각적으로 비교 가능
- 단순한 시계 생성이 아닌, AI의 창의적 코드 생성 능력을 실험하는 형태
- 매 분마다 새로운 결과가 표시되어 지속적 변화와 실시간성을 제공
추가 정보
- 원문에 기술된 내용 외 추가 설명 없음
Hacker News 의견
-
내가 만든 프로젝트임에 감사 인사를 전함
시계라는 주제와 기술의 한계를 탐구하는 걸 좋아함
여러 모델을 지켜봤는데 Kimi는 가장 정확하지만 변동이 적고 다소 지루함
반면 Qwen은 종종 엉뚱하고 웃긴 결과를 내서 즐거움을 줌. 어느 쪽이 더 “좋은”지는 모르겠음- 멋진 작업임. 사용자가 예시를 클릭하면 LLM의 원본 출력을 볼 수 있게 하면 좋겠음
- 생성된 시계들을 DB에 저장하고 있다면, Facemash 스타일의 투표 사이트로 확장하면 재밌을 것 같음. 두 시계 중 더 나은 걸 고르고, Qwen이 만든 최고의 시계를 랭킹으로 보고 싶음
- 망가진 시계들도 단순한 실패가 아니라 새로운 디자인 아이디어를 주는 경우가 있음
- 이번 달 HN에서 본 것 중 최고임. 바보 같으면서도 통찰력 있고 웃기면서도 철학적임
실제로 몇 가지 디자인을 현실에서 만들어보고 싶은 충동이 듦. 돈을 들여 실험한 점이 멋짐 - 친구들에게 공유했는데, 같은 시간임에도 각자 다른 시계를 본다고 함. 사용자별로 결과가 다른 이유가 궁금함
-
사이트가 진짜인지 의심스러웠음. 숫자의 스케일과 회전이 너무 이상했기 때문임
직접 프롬프트를 ChatGPT에 넣어봤더니 꽤 괜찮은 시계판을 만들었지만 시간이 몇 시간씩 틀렸음
나중에 보니 ISP의 지리적 타임존 때문이었을 수도 있음- OP가 출력 길이를 2000 토큰으로 제한했다고 읽었음
-
몇 분간 지켜보니 Kimi K2가 가장 안정적으로 완성도 높은 시계판을 생성함
오늘 처음 들어본 모델인데 인상적임. 반면 Qwen 2.5는 거의 실패작 수준임- 프롬프트가 Kimi K2에 최적화되어 있을 수도 있고, 해당 데이터에 더 잘 학습된 모델일 수도 있음
- Kimi K2는 Kagi에서 질문형 쿼리의 AI 답변을 생성할 때 쓰이는 모델이라 알고 있었음
- 나는 K2 팬임. 다른 모델보다 독특한 개성이 있고 아첨하지 않음. 창의적 글쓰기에도 강함
Groq에 호스팅된 K2는 지능/초당 비율이 놀라움 (아직 속도 제한은 있음) - Kimi K2의 시계가 보기엔 가장 예쁘지만 시간이 자주 틀림
- Kimi K2는 진짜로 잘 만든 모델임
-
이미지 생성 모델이 처음 나왔을 때부터 13시간짜리 시계를 만들려 했지만 실패했음
대부분 “12”를 “13”으로 바꾸거나 시계판을 망가뜨림. 혹시 성공한 사람이 있다면 방법을 공유해줬으면 함- 이미지 모델은 새로운 개념 변형에 특히 약함. 언어 모델보다 일반화 능력이 떨어짐
- Gemini 2.5 Flash로 시도했더니 이 이미지를 얻었음
바깥쪽은 정상적인 12시간, 안쪽은 “IIII”와 “VIIII” 같은 이상한 로마 숫자 표기를 사용함 - 여러 모델에 “농부와 염소, 배추, 늑대 구름” 수수께끼를 냈더니 대부분 기존 강 건너기 문제로 오해함
일부는 뭔가 이상하다고 느끼지만 끝내 제대로 이해하지 못함 - Gemini에 “13시간 시계의 각도”를 계산시키고 이미지를 만들게 했지만 매번 같은 그림만 나옴
수정 요청을 해도 결국 12시간 시계에 “13”을 덧붙인 결과만 나왔음 - 욕설까지 써가며 다양한 트릭을 시도했지만 실패함. 반대로 6시간짜리 시계도 시도했음
-
비결정성의 극치임. 한 번은 완벽한 시계였는데 새로고침하니 달리 그림 같은 시계로 변함
-
일주일 내내 Claude Code로 GPU 렌더링 코드를 작성시키려 했지만 전혀 제대로 작동하지 않았음
세세한 프롬프트와 매트릭스 설명까지 줬는데도 결과는 엉망이었음
실패 후에는 로그를 추가하고 “완벽히 수정했다”고 자신 있게 말하지만 여전히 틀림
테스트를 작성시켜도 틀린 코드가 일관되게 틀린지만 검증함
결국 “인턴 모드”로 들어가서 무작위로 코드를 바꾸며 “이제 완벽하다”고 주장함
귀엽긴 하지만 실용성은 아직 멀었음- MCP를 이용해 문서와 예시를 함께 제공해봤는지 물음. Context7 같은 세팅을 추천함
- OpenAI Codex GPT5.1을 써봤는지 제안함. GPU 렌더링 작업에 꽤 잘 맞음
- 이런 실패가 흔한 이유가 궁금함. 부정적 결과 데이터 부족 때문일 수도 있음
스크린샷 검증이 안 되는 건 당연함. VLLM은 세부 시각 정보를 제대로 다루지 못함 - Claude가 점점 게을러지는 느낌임. 테스트 절반만 고치고 “이 정도면 충분하다”고 주장함
-
LLM을 맹신하는 사람들에게 이 프로젝트는 좋은 현실적 예시임
“테스트가 실패함” → LLM이 테스트를 삭제하고 “수정 완료!”라고 하는 식임- 시계를 보며 느낀 건, 우리는 시계의 정답을 알고 있으니 오류를 인식할 수 있음
하지만 정답을 모르는 문제에서는 LLM의 불확실성을 측정할 방법이 없음
결국 현실과 대조해야만 오류를 알 수 있음 - 검증이 어려운 작업에 LLM을 쓰는 건 위험한 선택임
- “테스트를 삭제한 LLM” 이야기는 마치 소원을 문자 그대로 해석하는 요정 이야기 같음
“그래서 아이들아, AI 커밋은 항상 리뷰해야 한단다”
- 시계를 보며 느낀 건, 우리는 시계의 정답을 알고 있으니 오류를 인식할 수 있음
-
LLM은 렌더링된 HTML을 직접 볼 수 없음
Cursor로 OpenGL 시각화 프로그램을 만들고 있는데, 시각적 버그를 설명하기가 너무 답답함
“이 선이 연결되지 않았다” 같은 말을 이해시키기 어려워 결국 디버그 프린트로 좌표를 찍게 함- Cursor의 브라우저 기능을 쓰면 웹 개발에서는 꽤 유용함
MCP를 통해 스크린샷을 대화로 보내게 할 수도 있음. 다만 구현이 필요함 - 직접 스크린샷을 Cursor에 제공해봤는데, 웹 UI나 그래프 생성 시 꽤 효과적이었음
- Claude는 스크린샷을 보내는 걸 공식적으로 권장함. Sonnet 4.5도 이런 반복 작업에 강함
- Puppeteer MCP 서버를 연결하면 Cursor가 자기 출력의 스크린샷을 찍으며 반복 개선 가능함
- Claude나 ChatGPT 모두 이미지 입력을 지원함. lm-server를 쓰면 비텍스트 모델과도 연동 가능함
- Cursor의 브라우저 기능을 쓰면 웹 개발에서는 꽤 유용함
-
정말 멋진 아이디어임. 놀랍게도 Kimi K2만 문제 없이 작동함
완전한 “thinking” 버전도 아닌데 말임
관련 글 Kimi K2 Thinking을 다시 읽게 됨 -
왜 Deepseek과 Kimi가 다른 모델보다 압도적으로 좋은 결과를 내는지 궁금함
혹시 이 작업에 특화된 학습을 받은 모델인지 의문임