[GN#68] 최신 데이터 인프라를 위한 새로운 아키텍처

2020-10-19 ~ 2020-10-25 사이의 주요 뉴스들
수집되는 정보의 양의 점점 늘어나면서, 빅데이터와 데이터분석이 아주 중요해졌습니다. 이제 데이터가 흐르는 조직 문화를 갖추고, 데이터 기반의 의사결정을 하는 기업이 되어야 성공할 수 있다고까지 얘기를 합니다. 이런 조직을 만들기 위해서는 다양한 일들이 수반되어야겠지만, 그중에 중요한 것 중 하나는 바로 비즈니스에 잘 맞는 데이터 인프라스트럭쳐를 구축하는 것입니다. 복잡해진 정보 구조에 대응하기 위해서 데이터 관련 서비스 및 오픈소스들도 정말 다양해 졌는데요. a16z(앤드리슨 호로위츠)에서 작성한 "최신 데이터 인프라를 위한 새로운 아키텍쳐" 글은 요즘에 대세로 떠오르고 있는 수많은 서비스들을 정리한 글입니다. 1장짜리 인프라 도표를 통해서 Event Collector, ETL/ELT, Workflow Manager, Data WareHouse/Lake, Business Intelligence 등 분야별 요즘 인기 있는 서비스 들이 뭔지 아실 수 있습니다. 이 서비스들의 연관 관계만 이해해도 도움이 많이 될 것 같은데요. 아쉽게도 이 글엔 자세한 설명까지는 없어서요. 제가 이 도표에 나온 서비스들이 뭔지 간단히 설명하는 동영상 시리즈를 찍어보고 있습니다. 가제목은 "최신 데이터 인프라 이해하기" 정도가 될 것 같습니다. 긱뉴스 유튜브를 구독해 두시면 곧 보실 수있을 테니 기대해 주세요.

Discord는 게이머들에게는 친숙한 도구입니다. 게임 하면서 멤버들과 음성채팅을 하는 도구이기도 하고, 게임 관련 커뮤니티들이 실시간 대화를 하는 용도로도 많이 쓰이는데요. 개발자들이 친숙한 Slack과도 기능이 아주 비슷합니다. 이 Discord가 어떻게 다른 음성/채팅들 도구와의 경쟁에서 이기는 지를 설명한 "Discord는 어떻게 승리했나" 글은, 독특한 Discord의 유료모델을 잘 설명하고 있습니다. 구독 모델이면서 자신이 속한 서버에 기여를 하는 Boost 기반 모델은 더 연구해서 다른 웹서비스나 커뮤니티에도 적용해볼 만한 가치가 있을 것 같습니다.

Adobe Flash는 한때 시대를 풍미했지만, 이제는 퇴출당한 기술이 되었는데요. 이 플래시를 HTML5, WebAssembly, WebGL 등 최신 기술로 현대의 웹브라우저에서 돌아가게 만든 "와플래시 게임 아카이브"에서는 예전 플래시들을 감상할 수가 있습니다. 여기에 JS13K 라고 하는 JavaScript 13KB 사이즈 이하로 만든 게임 대회 인기작들을 보면, 예전의 플래시 기술이 이제는 브라우저 기술만으로도 다 구현 가능하다는걸 볼 수 있는 사례인 듯 합니다.


✓ 사내에서 슬랙을 쓰신다면 뉴스채널에 GeekNews SlackBot 을 추가하여 편하게 새 글을 받아보시고, 멤버들에게도 공유해주세요.
✓ 주위분들께 긱뉴스 위클리 - https://news.hada.io/weekly 를 추천해 주세요.
Twitter , Facebook 에서도 긱뉴스를 받아 보실 수 있습니다.
✓ 긱뉴스를 팟캐스트로 들어보세요 : 애플, 유튜브, 팟티, 팟빵, 구글, 네이버 오디오클립

매주 월요일 아침, 지난 일주일간의 GeekNews 중 엄선한 뉴스들을 이메일로 보내드립니다.


최신 데이터 인프라를 위한 새로운 아키텍처

- 데이터 전문가들을 인터뷰하여 정리한 최신 데이터 인프라스트럭처 관련 정보 및 용어 설명
- 데이터 분야 전반을 이해하기에 정말 좋은 6장짜리 PDF
ㅤ1장으로 보는 통합 데이터 인프라 개념도
ㅤ1. Sources : 비즈니스 및 운영 데이터를 생성
ㅤㅤ→ㅤOLTP DB via *CDC
ㅤㅤ→ㅤApplications/ERP(Oracle,Salesforce,Netsuite) : 비즈니스에서 발생하는 모든 데이터
ㅤㅤ→ㅤEvent 수집기(Segment,Snowplow) : 서비스 사용자의 모든 이벤트를 수집
ㅤㅤ→ㅤLogs : 웹서버 및 각종 서버들의 로그
ㅤㅤ→ㅤ써드파티 API(Stripe등) : 결제 및 기타 사용API 들에서 발생되는 데이터
ㅤㅤ→ㅤ파일과 객체 스토리지
ㅤ2. Ingestion and Transformation : 요즘은 ETL to ELT, Extract / Load / Transform
ㅤㅤ운영시스템에서 데이터 추출(E) / 저장소로 옮기고(L) / 데이터를 분석용으로 변환(T)
ㅤㅤ→ㅤConnector(Fivetran, Stitch, Matillion) : 여러 소스에서 DW로 데이터를 옮기는 도구
ㅤㅤ→ㅤData Modeling (dbt, LookML) : 데이터 모델링 및 변환
ㅤㅤ→ㅤWorkflow Manager (Airflow, Dagster, Prefect) : 데이터 흐름 자동화를 위한 오케스트레이터 / 스케줄러
ㅤㅤ→ㅤSpark Platform (Databricks, Amazon EMR) : 분산처리를 위한 고성능 클러스터링 플랫폼
ㅤㅤ→ㅤPython Libs : 데이터분석 라이브러리 - Pandas, AWS 인터페이스 - Boto, 대용량 병렬처리용 Dask, 분산처리용 Ray..
ㅤㅤ→ㅤBatch Query Engine (Hive) : 빅데이터 쿼리
ㅤㅤ→ㅤEvent Streaming (Confluent/Kafka, Pulsar, AWS Kinesis) : 실시간 메시징/스트리밍 플랫폼
ㅤㅤ→ㅤStream Processing (Databricks/Spark, Confluent/Kafka, Flink) : 스트리밍 데이터를 수집/처리 및 분석
ㅤ3. Storage : 쿼리 및 처리가능한 형태로 데이터를 저장. 저비용, 확장성 및 분석작업에 대해 최적화.
ㅤㅤ→ㅤData Warehouse ( Snowflake, BigQuery, Redshift ) : 분석 가능한 정보들을 모은 데이터 통합 저장소
ㅤㅤ→ㅤData Lake : DW와 달리 정제하지 않은 정형/비정형 원시데이터를 저장
ㅤㅤㅤㅤㅤDatabricks/Delta Lake(Spark와 S3/HDFS 등에 ACID 트랜잭션이 가능하게하는 데이터 레이크),
ㅤㅤㅤㅤㅤApache Iceberg(페타단위를 저장하는 초대형 테이블 포맷, Netflix가 개발),
ㅤㅤㅤㅤㅤApache Hudi(효율적인 데이터 레이크, Uber가 개발), Hive Acid
ㅤㅤ→ㅤApache Parquet - 컬럼기반 저장 포맷
ㅤㅤㅤㅤApache ORC - Optimized Row Columnar, 컬럼단위로 기록하며 인덱스도 함께 기록
ㅤㅤㅤㅤApache Avro - 로우단위 기록, 쓰기에 적합, 스키마 진화에 적합
ㅤㅤ→ㅤAWS S3(Simple Storage Service), GCS(Google Cloud Storage), ABS(Azure Blob Storage), HDFS(Hadoop Distributed File System)
ㅤ4&5. Historical & Predictive : 분석가 및 데이터 사이언티스트가 인사이트를 도출하기 위한 인터페이스(쿼리)를 제공
ㅤㅤ Historical : 과거에 무슨일이 일어났나를 설명. 아주 최근(거의 실시간) 포함
ㅤㅤ Predictive : 미래 예측, 데이터기반/ML 어플리케이션
ㅤㅤ→ㅤData Science Platform (Databricks, Domino, Sagemaker, Dataiku, DataRobot, Anaconda, ...)
ㅤㅤ→ㅤData Science and ML Libraries ((Pandas, Numpy, R, Dask, Ray, Spark, Scikit-learn, Pytorch, TensorFlow, Spark ML, XGBoost, )
ㅤㅤ→ㅤAd Hoc Query Engine (Presto, Dremio/Drill, Impala)
ㅤㅤ→ㅤReal-time Analytics : Imply/Druid - 실시간 분석, Altinity/Clickhouse - OLAP, Rockset - 상용 실시간분석엔진(고성능 KV 임베디드 DB인 RocksDB 기반)
ㅤ6. Output : 데이터 분석 결과를 내/외부에 보여주는 도구. 만들어진 데이터 모델을 운영시스템과 어플리케이션에 임베드
ㅤㅤ→ㅤDashboards : Looker, Apache Superset, Mode, Tableau - Business Inteligence 도구
ㅤㅤ→ㅤEmbedded Analytics : Sisense, Looker, cube.js - BI 도구를 내부 시스템에 임베드. API 기반. 내부 분석앱을 생성가능
ㅤㅤ→ㅤAugmented Analytics : Thoughtspot, Outlier, Anodot, Sisu - AI를 이용해서 알아서 분석해주는 도구
ㅤㅤ→ㅤApp Frameworks : Plotly Dash, Streamlit - ML App을 만들수 있게 해주는 프레임워크

ㅤ7. 그외
ㅤㅤ→ㅤMetadata Management (Collibra, Alation, Hive Metastore, DataHub, ...)
ㅤㅤ→ㅤQuality and Testing (Great Expectations)
ㅤㅤ→ㅤEntitlements and Security (Privacera, Immuta)
ㅤㅤ→ㅤObservability (Unravel, Accel Data, Fiddler)

2. 세가지 주요 분야별 블루프린트
ㅤ→ 최신 비즈니스 인텔리전스(BI)
ㅤ→ 멀티모달 데이터 프로세싱
ㅤ→ AI 와 ML 분야

* Change Data Capture : OLTP의 변경 데이터를 실시간으로 다양한 다른 저장소(DB,DW)에 복사

번역본 링크가 잘못되었습니다 ㅎㅎ; 아래 링크를 참고해 주십시오 ^^;

https://drive.google.com/file/d/…

 
Discord 는 어떻게 승리했나

게이머들을 위한 음성/그룹 채팅에서 승자가 된 디스코드 분석
- 10x 좋게 : TeamSpeak, Mumble 등의 문제는 어려운 셋업, 유료 호스팅, 불분명한 베네핏 등
ㅤ→ 디스코드는 두번 클릭으로 서버(슬랙의 워크스페이스) 생성, 채널 시작 가능
ㅤ→ 다른 사람 초대하기 쉬움. 이모지,봇,화상통화,화면공유등 다양한 기능
ㅤ→ 가장 중요한건 이런 훌륭한 기능에도 "무료" 라는 것

- Sell Status to Capture Value (가치 확보를 위해 "상태/지위"를 팔기)
ㅤ→ 디스코드는 LoL의 스킨처럼 내 Status 를 구매하는 모델
ㅤ→ Nitro 구독서비스에 가입하면
ㅤㅤㅤ· 품질 향상 (파일 전송 크기 및 화상 통화 품질)
ㅤㅤㅤ· 특수 프로필 업그레이드 ( 더 많은 이모지, 애니메이션 프로필 사진, 커스텀 태그 )
ㅤㅤㅤ· 가장 중요한 서버 "Boost" (부스트) 를 두개 줌
ㅤ→ Boost 는 디스코드 서버내에서 사용자의 Status(지위)를 높임
ㅤㅤㅤ· 내가 속한 서버 자체를 부스트
ㅤㅤㅤ· 부스트 받은 서버는 이모지 슬롯, 코스메틱 기능들(애니 아이콘, 서버 배너), 품질 개선(음성/영상, 파일 업로드 크기) 향상
ㅤㅤㅤ· 사용자 이름 옆에는 이 사람이 "이 서버에 기여하는 부스터"라는 아이콘을 표시
ㅤ→ Nitro 는 월 $5 또는 년 $50 (클래식의 경우임, 요즘껀 $9.9 / $99)
ㅤㅤㅤ· 2개의 서버 부스트를 기본 제공
ㅤㅤㅤ· 부스트는 개당 $5로 별도 구매가능
ㅤㅤㅤ· 서버에 낸 부스트 갯수에 따라 사용자 레벨이 결정
ㅤㅤㅤ· Level 1 은 2개, Level 2는 15개, Level 3 는 30개
ㅤㅤㅤ· 서버 사이즈 별로 이 숫자는 달라짐. 즉 서버가 클수록 부스트를 많이 내야 레벨 3에 도달 가능
ㅤㅤㅤ· 예) 마인크래프트 : 165 부스트($825)
ㅤㅤㅤㅤㅤㅤLoL(리그오브레전드) : 201 부스트 ($1005)
ㅤㅤㅤㅤㅤㅤ모여봐요 동물의숲 : 412 부스트 ($2060)
ㅤㅤㅤㅤㅤㅤPython : 44 부스트 ($220)
ㅤㅤㅤㅤㅤㅤCallMeCarson(미국 유명 유튜버) : 1153 부스트 ($5765)

- 디스코드는 무료로도 엄청 사용자가 많은 서버로 성장할 수 있고, 서버 관리자가 돈을 낼 필요도 없음
ㅤ→ 하지만 사용자가 늘면 알아서 디스코드는 돈을 벌게되는 좋은 유료 모델

디스코드를 잘 활용한 사례로 아래 글도 참고 하세요.
무명 게임을 바이럴하기 : Spellbreak의 성장 교훈 https://news.hada.io/topic?id=2794

디스코드는 기능만으로 보면 정말로 슬랙보다도 좋은 부분이 많습니다. 인터넷 커뮤니티에 더 잘 어울리는 방식이에요.
지금 디스코드는 엔터프라이즈 쪽에는 별로 관심도 안두고 있는데, 엔터프라이즈쪽에 들어가면 슬랙/팀즈와 훌륭한 경쟁상대가 될듯 합니다.

 
bitwarden - 오픈소스 암호 관리자

- 암호를 관리하고 자동으로 입력해주는 1password, LastPass 등의 오픈소스 대체제
- 윈도우/맥/리눅스/iOS/Android 및 크롬/FF/Edge/사파리 지원
- 서버도 오픈소스로 공개되어 클라우드(유료, 년$10) 대신 서버자체를 자신이 호스트 가능

오늘 1Password 리눅스용 베타가 공개가 되었길래 생각나서 올려봅니다.
https://blog.1password.com/1password-for-linux-beta-is-now-open/

서버를 통해서 비밀번호를 공유하는 서비스는 해킹에 대한 보안 여부가 가장 관심사일 듯 한데요
이 쪽의 표현이 재미있어요.
https://bitwarden.com/help/article/…
https://bitwarden.com/help/article/cloud-server-security/

"완전히 관리되는 Azure 서비스만 사용하기 때문에 업데이트 등 모든 것을 MS 가 보장하지 우리(bitwarden)가 관리하는 인프라가 하나도 없다"

예전부터 봐왔던 1password 대체제인데 그 전에는 클라우드 서비스가 없었는데 팀 서비스까지 생기고 엄청 발전한 것 같네요. 클라우드는 정말 완전 managed 라면 azure 의 PaaS 랑 DBaaS 계열만 사용해서 구현했나본데 생각보다 가격이 저렴한 것 같아요.

 
MicroK8s - 초소형 쿠버네티스 패키지

- 개발자 장비, IoT 기기, CI/CD 등에서 쉽게 설치하고 즉시 활용 가능
- Ubuntu를 만든 Canonical이 직접 개발하고 관리, 업데이트
- 42종의 리눅스 배포본, 윈도우, 맥 지원
- ARM, Intel, 라즈베리 Pi
- 공통적인 K8s 기능 및 서비스들 지원. 간단히 켜고 끌수 있음
ㅤ→ Service Mesh: Istio, Linkerd
ㅤ→ Serverless: Knative
ㅤ→ Monitoring: Fluentd, Prometheus, Grafana, Metrics
ㅤ→ Ingress, DNS, Dashboard, Clustering
ㅤ→ Automatic updates to the latest Kubernetes version
ㅤ→ GPGPU bindings for AI/ML
ㅤ→ Kubeflow!
- NVidia CUDA 자동 인식하여 가속

 
지역성의 원칙을 고려한 패키지 구조: 기능별로 나누기

프로젝트 패키지 구조에 있어 packages-by-layer와 packages-by-feature, 두 접근 방식을 지역성의 원칙(the principal of locality)를 사용해 비교한 글

추후 서비스가 커져서 각 기능들을 마이크로 서비스로 분리해야 할 시점이 오면, packages-by-feature를 사용한 것이 큰 도움이 되겠내요.

 
HashiCorp, Waypoint 오픈소스 공개

- "waypoint up" 명령어 하나로 여러 플랫폼에 쉽게 빌드/배포/릴리즈 할수 있게 해주는 오픈소스 워크플로우
- K8S,Nomad,ECS,Google Cloud Run,Azure Container,Docker,Buildpack 등을 지원
- 배포한 어플리케이션 별로 'waypoint.run' URL 이 발급되고 Let's Encrypt 인증서도 자동 생성. 해당 URL로 배포된 서비스를 바로 확인 가능
- waypoint.exec 명령으로 배포된 앱의 콘텍스트에서 실행 가능 : 디버깅용 쉘, 데이터베이스 마이그레이션 등
- 실시간 로그 수집. CLI 및 UI를 통해서 확인 가능
- WebUI 제공
- 플러그인 시스템으로 어떤 도구/플랫폼과도 연계 가능

 
Pitch - 프레젠테이션 실시간 협업 작성도구

- 공동작업자간 화상대화 (커서옆에 작게 얼굴이 보임)
- 스타일리쉬 / 유연한 템플릿
- 빠른 편집 및 훌륭한 단축키 지원
- Google Analytics, Google Sheet 의 정보를 직접 연동해서 삽입
ㅤ→ Vimeo, Giphy, Unsplash, Loom
ㅤ→ Stripe, Typeform, Mailchimp 등도 연동 예정
- 윈도/맥 용 실행파일 제공. iOS/Android 버전도 출시 에정
- 개인 및 팀 대상 무료 플랜
- 유료 버전엔 권한관리, 비디오 업로드, 공유폴더, PDF 익스포트시 로고 제거 등

기본 템플릿들을 보면 정말 딱 스타트업 피칭용으로 디자인된 것들을 가지고 있어서 대충만 만들어도 이쁘게 뽑아줍니다.
Pitch 내부 디자인팀이 만든 템플릿만 참고하는데도 쓸만할 것 같아요.

- Startup : 회사 소개하는 30장 정도의 슬라이드 템플릿
- Pitch : IR 용. 각종 그래프, 마일스톤, 숫자 등

스토리 템플릿들도 괜찮습니다. 이름만 보면 뭔지 알수 있어요 ㅎ
- Games, Hangouts, Workshop, Company Culture, Creative Brief
- Partnership Proposal, Product Launch, Team Retrospective, Competitor Analysis
- Employee Onboarding, Marketing Strategy, Case Study, Employee Handbook, Social Media Report
- Board Meeting, Brand Guidelines

 
B2B에서는 무료와도 경쟁이 가능해요

무료 오픈소스가 있는데 당신의 제품을 누가 쓸까요? 라는 질문에 대해, 비즈니스 에서 "No-Charge" 는 무료가 아님
Apache Solr / ElasticSearch 를 이용해서 Algolia(검색 SaaS)의 기능을 흉내낼수 있지만 그만큼 강력하지 못함

B2B 비즈니스 아이디어를 생각할 때 중요한 건
"회사들이 직접 돈을 내고 있진 않지만, 직원들의 시간에 대해서 비용을 내는 것은 뭐가 있나요?"
이 질문에 뭐라도 떠올릴 수 있다면, 그건 훌륭한 비즈니스 아이디어가 될 수 있다는 것

해외의 작고 큰 B2B 사업체들이 계속 성장하는 데에는 이 간단한 공식이 적용 됩니다.
돈 조금만 지불하면 직원들의 시간을 많이 아낄 방법들이 존재하거든요.

이미지 배경 지우기(누끼 딴다고 하죠),랜딩페이지,구독기능,검색기능,마케팅 최적화 등등..

예를 들어, 한국에서 이커머스 나 결제기능이 포함된 사이트를 개발한다고 하면,
무조건 I'mport https://www.iamport.kr/ 를 쓰는게 효율적입니다.
국내에도 이런 B2B 서비스들이 더 많이 나오면 좋겠어요.

 
Atlassian, 서버판매 중단하고 클라우드 퍼스트로 전환

- 사용자가 직접 설치 가능한 Jira/Confluence등의 서버 라이센스 판매 중단 (2021년 2월부터)
- 기존 라이센스는 3년간 유지보수 지원하지만 유지보수 비용 인상
- 500명 이상의 기업용 데이터센터 버전은 계속 유지하지만, 가격 약 2배 인상 (Jira 만 4700만원..)

500명 이하의 스타트업/중소기업들은 클라우드 버전 쓰라는 거군요.

Jira 데이터센터(DC) 버전은 1~500명까지 지원하는게 $42000(4700만원) 에서 시작합니다.
Confluence 데이터센터(DC) 버전은 조금 싸서 1~500명이 $27000(3000만원) 니까
500명 이하 회사가 Jira/Confluence 만 쓰면 총합 8천만원부터 시작인거네요.

기존에 Jira/Confluence가 사내에 설치 가능해서 썼던 회사들은 다 어쩌라고 이런 선택을 했는지..

어찌보면 이번 기회에 제대로 된 Jira/Confluence 대체제들이 더 많아지는 계기가 되지 않을까 생각합니다.

Selfhosted 할 수 있는 게 가장 큰 장점이라고 생각했는데, 아쉬운 결정이내요.

Redmine이나 YouTrack이 더 열일해줬으면 좋겠네요.

 
Bunkerized Nginx - 보안 강화된 Nginx 도커 이미지

- Let's Encrypt로 HTTPS 자동 지원
- 최신 웹보안 적용 : HTTP보안헤더, php.ini보안 등
- OWASP 코어 룰셋이 적용된 ModSecurity 오픈소스 방화벽(WAF)
- fail2ban 으로 이상IP 자동 밴
- 쿠키,JS,캡챠/리캡챠 v3로 Bot 체크
- TOR,프록시,잘못된 User-Agent 차단
- DNSBL 자동 체크로 나쁜 IP 차단
- rate limiting 적용해서 bruteforce 공격 방지
- ClamAV 로 나쁜 파일 감지

 
HTML5 기술로 만든 플래시 플레이어 - 와플래시 게임 아카이브

- 플래시로 제작된 게임, 애니메이션 등 컨텐츠 아카이브
- WebAssembly, WebGL, HTML5 등 최신 웹기술을 사용해 개발한 플래시 엔진
- IE11 이하 WebAssembly를 지원하지 않는 브라우저를 제외한 최신 브라우저 지원

비슷한 프로젝트로 Rust로 제작된 Ruffle이 있습니다.
Ruffle, WebAssembly 로 제작 된 Adobe Flash 플레이어 - https://news.hada.io/topic?id=343

 
JS13K 2020 의 Top 10 게임들

- 13KB 이하 JavaScript 게임대회 출품작중 참가자들의 투표순위 상위 10개
- 올해의 테마는 404 (Not Found)

Ninja vs. Evilcorp : 플랫포머
Edge Not Found : 소코반
CHOCH : 200OK를 찾아가는 웹 크롤러
Track not found?! : 디멘젼/퍼스펙티브를 이용한 길찾기
Stolen Sword : 드래그,점프 액션
The Last Spartan : 핵앤슬래시
FOURFOLD : 퍼즐
I want to Google the Game : 브라우저로 검색엔진 찾아가기 (장애물 돌파)
Highway 404 : 스파이헌터
MINIPUNK : 3D 액션

 
MS의 이미지 캡셔닝 AI가 사람처럼 사진을 묘사하기 시작

- 시각 장애인용 앱 Seeing AI 및 Azure Cognitive Services 에 적용

예전 : 고양이
최신 : 회색 고양이가 두 눈을 감고 있음

- Seeing AI는 카메라를 이용해서 간단한 텍스트부터 인쇄된 문서까지 읽어주고,
ㅤ바코드를 인식해서 손에 들고 있는 제품이 뭔지 말해주고,
ㅤ사람을 인식해서 나이/성별/안경착용여부/표정(행복/슬픔..) 등을 알려주고,
ㅤ사진을 찍으면 어떤 장면(Scene)인지 알려주고 (위의 고양이 같은),
ㅤ지폐를 인식해서 얼마인지도 알려줍니다.
ㅤiOS의 공유기능등을 통해서 다른 앱(트위터/페이스북)에서 이미지를 보내면 그걸 인식해서 설명해주기도 합니다.

Seeing-AI https://www.microsoft.com/en-us/ai/seeing-ai
2017년에 출시된 이 앱은 정말 좋은데.. 한국어 지원이 아직 입니다. ㅠㅠ
안드로이드 버전도 없어요. ( 이건 아마도 iOS 가 접근성 지원자체가 훨씬 훌륭하기 때문이라고 생각은 듭니다.)

사이트에 가보시면 위에 적은 기능들 시연 동영상이 다 있으니 한번 보시기 바랍니다. 꽤 훌륭한 성능을 보여줍니다.

 
미국 10대들의 기업 선호도 조사

Piper Sandler 투자은행이 20년째 매년 두번씩 시행하는 "Taking Stock With Teens®" 로 꽤 재미난 통계
- 86%가 아이폰을 소유, 89%는 다음 휴대폰으로 아이폰을 살 예정
- 일일 비디오 소비량 Netflix(34%), Youtube(32%)
- 최고의 이머커스는 Amazon, 2등이 SHEIN으로 처음 Nike를 앞지름
- 중고제품 쇼핑이 전체 쇼핑시간의 8%
- 최고의 식당 : Chick-fil-A > 스타벅스 > Chipotle > 던킨 > 맥도널드
- 비디오 게임은 10% 지갑을 점유. 63%가 차세대 콘솔 구매 예정
- 뷰티 사이트는 1등이 Ulta(42%), Sephora(20%), 아마존은 5%로 5등
- 여성용 화장품 지출은 전년대비 20%감소, 여성용 스킨케어는 3%감소, 남성용 스킨케어는 12% 증가
- 루이비통이 선호 핸드백 1등(19%), 마이클 코어스(18%), 코치(13%)
- 소셜미디어는 Snapchat (34%), 틱톡(29%), 인스타그램(25%) 로 틱톡이 앞지름.
- 가장 좋아하는 유명인은 Kevin Hart 이고, 최고 인플루언서는 David Dobrik
- Nike 는 신발(52%), 의류(27%) 로 2관왕

최고의 식당이 나름? 놀랍네요. 저기 우리나라로 치면 딱 맘스터치 랑 같은 느낌인듯 한데..(안가봐서 모름)
나이키 신발의 선호도가 52%로 너무 높은 것도 놀랍구요. (전 아디다스가 더 편하던데!)

최근 소비 성향을 보면 편함이나 기능성 그외 요인보다,
그냥 유명하고 이쁘고 남들이 알아주는 게 더 잘나가는 것 같네요

 
Git 2.29 릴리즈

- 실험적 SHA-256 지원
- 네거티브 방식 refspec 지원해서 필요없는 브랜치만 빼고 페치/푸시 가능
- git shortlog 에 --group=author|committer|trailer 등의 추가 인자 지원
- git for-each-ref 의 --format 에 contents:size, subject:sanitize 등 필드 추가
- merge 할때 컨플릭 메시지를 좀 더 이해하기 쉽게 변경
- git bisect --first-parent 추가

 
Async Cookie Store API, 크롬 87부터 사용 가능

- 올드한 방식의 document.cookie 를 대체
- Promise를 리턴해서 Service Worker에서도 사용 가능
- 쿠키별 직접 접근, 루프를 통해 찾을 필요 없음
- 이벤트 리스너를 등록하여 쿠키 변경 모니터링
ㅤ→ await cookieStore.get('session_id')
ㅤ→ await cookieStore.set({ name: 'opt_out', value: '1' });
ㅤ→ await cookieStore.delete('session_id');
ㅤ→ cookieStore.subscribeToChanges([{ name: 'session_id' }])

 
페이스북, 영어 의존없이 100개 언어를 번역가능한 모델 오픈소스로 공개

M2M-100 은 MMT(Multilingual Machine Translation) 모델로,
최초로 영어 데이터에 의존하지 않고 100개의 언어 쌍을 상호 번역가능.

대부분의 번역이 트레이닝 데이터가 많은 영어를 거쳐서 가지만, 이 모델은 직접 번역하여 의미를 더 잘 보존하게됨
BLEU(Bilingual Evaluation Understudy) 점수에서 10% 이상 나은 결과를 보여줌.

총 2200개의 언어 방향으로 트레이닝 되었으며, 예전 최고수준의 영어중심 다국어 모델보다 10배 더 많은 것.
M2M-100 을 이용하면 자료가 부족한 언어를 사용하는 사람들의 번역품질이 향상됨.

이 글에선 MMT 교육 데이터 세트 및 모델 구축방법에 대한 세부정보를 공유하고,
다른 연구자들이 더 나은 다국어 모델을 재현하고 발전할수 있도록 모델, 교육 및 평가 방법등도 공유.

120억개의 파라미터로 트레인된 모델 파일을 다운로드 가능 (136GB)

 
SQLite, 재귀 CTE 내에서 여러개의 SELECT 문 지원

- 개발자인 Richard Hipp이 남긴 글
- 원래 SQLite의 CTE (Common Table Expression) 는 PostgreSQL을 따랐기 때문에 한개의 SELECT만 지원했음
ㅤ→ 하지만, SQL Server가 여러개의 재귀 쿼리를 지원하는 걸 보고 이를 반영

1. 이제 SQLite는 단일 재귀 CTE 내에서 여러개의 재귀 SELECT문을 지원하고, 이 쿼리들을 Union 할수 있는 유일한 엔진임 ( 또 있다면 제보바란다고. ) SQL Server 는 UNION ALL만 허용. PostgreSQL은 UNION 이 되지만, 단일 재귀 SELECT만 가능.

2. 이 에피소드는 Fossil 이 SQLite의 VCS로서만이 아니라, 어떻게 SQLite 개발을 지원하고, 테스트 플랫폼으로서 동작하는지를 보여주는 것. Fossil 이 SQL 표준에는 있지만 어디도 구현되지 않은 기능을 필요로 했고, SQLite가 그 기능을 제공. Fossil 과 SQLite 가 같이 발전했음. 이는 개밥먹기(dogfood) 의 장점을 보여주는 사례임.

 
이제 페이스북 트래픽의 75%가 QUIC 과 HTTP/3 사용

- QUIC 구현체인 mvfst를 자체 개발
- 내부 트래픽에 먼저 적용하기 위해서, 로드밸런서에 적용
- 이후 QUIC을 모바일용 C++ HTTP 프레임워크인 Proxygen Mobile에 적용
- 페이스북 앱에 도입 : 다이나믹/스태틱/비디오 콘텐츠
- 비디오 성능 향상
ㅤ→ MTBR(Mean time between buffering) : 22% 개선
ㅤ→ 비디오 에러율 8% 감소
ㅤ→ 재생 멈춤 20% 감소
- 페이스북과 인스타그램 웹 버전에도 적용되어서 브라우저가 지원한다면 바로 사용 가능 (크롬 과 사파리 베타)

페이스북을 모바일에서만 접속하는 비중이 79%이고, 모바일/데스크탑 동시 접속이 19.1% 라고 합니다.

https://statista.com/statistics/377808/…

 
MS Azure의 모듈식 데이터센터

마이크로소프트가 Azure Modular Datacenter(MDC)라는 것을 공개했습니다. (영어) 이것은 컨테이너화된 독립적이고 이동가능한 작은 데이터센터로, 말 그대로 트레일러에 실을 수 있는 컨테이너에 클라우드 서비스를 위한 서버 및 스토리지 하드웨어를 담아 컴퓨팅 자원을 제공하는 것입니다.

MDC는 외부 온도/습도/수평/전자파 등의 환경이 열악하고 네트워크 인프라가 부실한 곳에서 빠르게 클라우드 서비스를 시작할 수 있게 만들어졌다고 합니다. 이를 위해 옵션으로 SpaceX의 Starlink 위성인터넷 회선도 제공한다고 하는군요. Project Natick도 그렇고, MS는 데이터센터의 컨테이너화를 적극적으로 추진하는 것 같습니다.

참고 - Azure Space:
https://news.microsoft.com/azurespace/

이거 남극이나, 아마존 밀림 같은데 가져다 놓기 좋을거 같아요.

이미 재작년? 작년? 에 바다 속에도 집어 넣었던 것 같은데요 ㅎㅎㅎ

2년 전에 MS가 데이터센터 하드웨어를 압력용기에 담아 바닷속에 집어넣었었고, 지금까지 잘 작동하여 최근에 프로젝트 성공을 선언하였습니다. 그게 본문에서 언급한 Project Natick입니다.

 
Quibi, 오픈 6개월만에 서비스 중단

- 모바일 특화된 5~10분짜리 짧은 동영상 서비스
- 투자받은 $1.75B(2조원) 가운데 $350M(3500억원)만 남아서 투자자에게 반환예정
ㅤ→ 그나마도 초기 투자자(골드만삭스,JP모건 등)가 우선권을 가지기 때문에,
ㅤㅤ마지막 라운드 투자자(알리바바,헐리우드 스튜디오 등)는 거의 못 돌려 받을 것
- 공동창업자 제프리 카젠버그와 맥 휘트먼이 공식 블로그에 올린 "직원,투자자,파트너에게 보낸 편지" 에서 공식화

어째 위험하다 싶더니 바로 문닫네요. 근래 가장 크고 빠른 실패사례인듯

알리바바 투자금액이 $100M, 골드만삭스/JP모건/구글 각 $50M, 디즈니/폭스/타임워너/NBCU 각 $25M 씩, 소니/비아컴/MGM 이 각 $10M 씩..
제프리 카첸버그 본인 $5.5M, 멕 휘트만은 $10.5M 이나 넣었군요.

퀴비(Quibi): 카젠버그의 자신감 https://news.hada.io/topic?id=1350
거꾸로 가는 퀴비 (feat.틱톡) https://news.hada.io/topic?id=1972

 
MONOSPACE - 자바스크립트 1K 데모 우승작

- 총 1021바이트 로 만들어진 코드에 대한 제작자의 설명
- 2D 캔버스에 ShadowBlur 로 Dot 이미지를 렌더링
- scriptProcessingNode 를 이용한 배경음악 + 음성합성
- Firefox 의 ShadowBlur 버그로 크롬/웹킷 추천

 
왜 ARM칩엔 JavaScript 이름이 붙은 명령어가 있나요?

- Arm v8.3-A 칩 이후 버전은 FJCVTZS 명령을 지원
ㅤ→ Floating-point Javascript ConVert To Signed fixed-point, rounding toward Zero
- JS는 숫자를 배정밀도(Double Precision) 실수형으로 처리하므로, 비트연산시 정수로 변환해야함. 이 처리비용을 줄이기 위한 전용 함수.
- 이 함수 하나만으로 JavaScript 처리속도가 1~2% 증가 한다고

ARM 측의 이 Javascript 명령어 설명 "Improved Javascript data type conversion"
https://community.arm.com/developer/ip-products/…

WebKit 팀이 이 명령어를 적용하여 테스트한 결과,
JS와 WASM 속도를 평가하는 JetStream2 벤치마크가 0.5~2% 향상된다는 보고
"Emit fjcvtzs on ARM64E on Darwin"
https://bugs.webkit.org/show_bug.cgi?id=184023#c24

 
Airbnb, Jony Ive를 크리에이티브 컨설턴트로 고용

- 조니 아이브가 임명된 것은 "차세대 Airbnb 제품 및 서비스를 디자인하기 위한 다년간의 계약" 으로
- 6년간 Chief Design Officer 였던 Alex Schleifer는 이사직에서 물러나서 파트타임으로 일하게 되고, 후임 CDO는 따로 계속 찾을 것.
- IPO를 앞두고 있는 Airbnb가 새로운 경영진을 구성하는 중
- 아이브는 2014년 Airbnb 로고 교체 작업때도 같이 일한 바 있음

 
Shopify, 구독 API 및 앱 확장 기능 공개

- 각 상점이 자신만의 정기 구독모델을 런칭 가능
- Shopify 의 결제/배송/할인등 모든 기능을 그대로 활용
- "구독 앱 확장"으로 기존에 불가능했던 다양한 결제모델을 만들수 있음
ㅤ→ Argo : Shopify용 앱 확장을 만들수 있도록 도와주는 기술로 JS,TS,React 코드를 작성하면 Shopify가 호스팅 해줌

기존에는 Shopify 에서 정기구독 같은걸 만들려면 Chargify 나 Reculry 같은걸 연동했어야 했는데 직접 지원하는 거네요.

https://chargify.com/
https://recurly.com/

 
iSH Shell - 이제 앱스토어에서 다운로드 가능

X86_32 에뮬레이터로 리눅스 쉘을 실행하기 때문에,
기존에는 직접 컴파일 하거나 TestFlight로만 설치가능했던 iSH가 앱스토어에서 다운로드 가능해짐
- 아이폰/아이패드 지원
- Alpine Linux 쓰듯이 apk 로 패키지 설치 가능
- vi,emacs,tmux,git,openssh,bash,zsh,curl 등 대부분 지원
- ssh,vnc 서버 실행가능

 
Youtube-dl, DMCA때문에 깃헙에서 삭제

- 유튜브 다운로더인 Youtube-dl 이 저작권을 침해 했다고 주장
- RIAA(미국 음반산업협회)가 DMCA 저작권 위반공지를 깃헙에 전달하자, 깃헙이 공식 Repo 및 Fork를 차단
- PyPi 모듈은 아직 사용 가능하며, 중국의 Git플랫폼인 Gitee 등에서는 코드 다운로드 가능

youtube-dl - Youtube 및 각종 비디오사이트에서 동영상 저장하기 https://news.hada.io/topic?id=1629

 
페이팔, 암호화폐로 물건 구매/판매/쇼핑 지원 시작

- 페이팔 US 계정 소유자는 지갑내에 암호화폐를 사고,팔고,보유 가능
- 내년 상반기에는 송금서비스인 Venmo 및 다른 나라에도 적용 예정
- 뉴욕주로 부터 조건부 암호화폐 라이선스를 확보 했고, 비트코인/이더리움/비트코인캐시/라이트코인 을 지원할 예정
- 페이팔에서 이뤄지는 암호화폐 지불은 최종에는 미국 달러와 같은 법정화폐로 결제 되므로, 가맹점은 실제 화폐로 수령하게 됨


국내에서는 실시간 은행송금이 원체 잘 되어있지만, 미국은 실시간 송금이 어려웠던지라 Venmo 가 굉장히 큰 비즈니스 입니다.

벤모 소개는 이글을 참고 하세요 : 페이팔, 벤모(Venmo)로 새로운 도약
https://post.naver.com/viewer/postView.nhn/…