GeekNews 최신글 예전글 쓰레드 댓글 Ask Show GN⁺ Weekly | 글등록 | mammal

로그인

mammal

46 karma 가입일 2022-09-20

최근 활동

최근 작성한 글

전체 보기

백악관, 개발자들에게 C와 C++를 피하고 '메모리 안전' 언어 사용 촉구 2024-02-29 · 18점 · 댓글 11개

최근 작성한 댓글

전체 보기

@xguru 혹시 최근 GN+의 번역 모델이 바뀌었을까요? 여기 댓글들은 censorship 측면에 많이 반응하지만, 더 흥미로운 subtext는 회사 내부 상황이 드러난다는 점임 Anthropic이 이런 일을 할 정도면 최근 load 문제, 특히 OpenClaw 사용량이 existential threat로 보였을 가능성이 큼. OpenClaw와 부정

이러한 붕괴의 기저에는 트랜스포머 아키텍처의 심장부인 '소프트맥스 정규화'가 가진 수학적 한계가 존재한다. 어텐션 메커니즘 하에서 모든 토큰의 주의 집중 가중치 합은 반드시 1이 되어야 하는 제로섬 분포를 따른다. 따라서 입력 시퀀스의 길이 N이 기하급수적으로 확장될수록, 특정 핵심 토큰에 할당될 수 있는 정보적 가중치는 필연적으로 1/N로 수렴하며 산술적으로 희석

논증만 열거하고 주장에 대한 결정적인 근거와 직접적인 실험은 없는 영양가 없는 글이네요 Yann LeCun의 "GPT 5000 가서도 모델은 테이블 위에 물건을 두고 테이블을 밀면 물건도 같이 밀린다는걸 학습하지 못할것이다," 나 "자가회귀 모델은 긴 시퀀스로 갈 수록 오류의 누적으로 반드시 붕괴한다" 의 지루한 연장선 같은...

Unsloth 창립자 Daniel Han은 진짜 천재인듯요. 오픈웨이트 모델 나올 때마다 모델 구조부터 토크나이징 버그, 양자화 오류, 템플릿 오류까지 분석해서 공유해 주는데 정말 감탄스러워요.

옛날 deprecated된 모델 라인업 중에 code davinci , code cushman 계열이 Codex 모델이에요. Codex라는 브랜드 자체는 굉장히 오래된거에요. https://www.youtube.com/watch?v=SGUCcjHTmGY

전체 배지

추천받은 댓글

댓글 작성

장기 활동

스페셜

더 많은 GeekBadge가 있습니다. 활동을 통해 모으거나, GeekGold로 구매해 보세요.

처음 오셨나요 사이트 이용법 FAQ About 긱배지 이용약관 개인정보 처리방침 | Blog Lists RSS | Bookmarklet

X (Twitter) Facebook | 긱뉴스봇 : Slack 잔디 Discord Teams Dooray! Google Chat Swit

시작하기 이용법 FAQ About 긱배지 약관 개인정보

Lists Blog RSS X 긱뉴스봇

검색