# 이미 시맨틱 웹은 널리 채택되어 사용되고 있음

> Clean Markdown view of GeekNews topic #16408. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=16408](https://news.hada.io/topic?id=16408)
- GeekNews Markdown: [https://news.hada.io/topic/16408.md](https://news.hada.io/topic/16408.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-08-22T09:45:19+09:00
- Updated: 2024-08-22T09:45:19+09:00
- Original source: [csvbase.com](https://csvbase.com/blog/13)
- Points: 14
- Comments: 4

## Summary

시맨틱 웹이 거론되고 있지 않지만, 이미 널리 채택되어 있으며 대부분 마크업에 숨겨져 있습니다. JSON-LD를 통해 블로그 포스팅, 이벤트, 제품 등 다양한 타입의 메타데이터를 인코딩할 수 있으며, 이 시맨틱 웹 메타데이터는 소셜 미디어와 검색 엔진에서 링크 미리보기와 검색 결과 향상에 도움을 줍니다. 아직까지는 AI를 사용한 자동 메타데이터 추출은 비용이 많이 들고 정확하지 않을 수 있어, 시맨틱 웹 메타데이터의 중요성이 강조됩니다. "**시맨틱 웹은 이미 널리 퍼져 있으며, 단지 승리의 순간이 없었을 뿐**"

## Topic Body

- 시맨틱 웹은 예전의 Web 3.0임. "Web 3.0"이 "크립토 같은 것들"을 의미하기 전까지는 "머신-리더블(Machine-Readable) 웹사이트"를 의미했음   
- 시맨틱 웹 개념이 더 이상 사용되지 않는다고 생각했는데, 알고 보니 시맨틱 웹은 이제 매우 널리 채택되어 이미 웹 3.0을 사용하고 있다고 해도 과언이 아닐 정도  
- 웹 3.0이 이미 존재한다면 어디에 있을까? 대부분 마크업에 숨겨져 있음  
  
##### JSON-LD를 이용한 블로그 포스팅  
  
- HTML 페이지의 `&lt;head&gt; `에 `&lt;script type="application/ld+json"&gt;` 요소를 추가하여 JSON-LD 메타데이터를 포함 가능  
- JSON-LD는 시맨틱 웹 메타데이터를 인코딩하는 주요 형식임  
- 예: BlogPosting 타입을 사용한 설명  
  
```json  
{  
  "@context": "https://schema.org",  
  "@type": "BlogPosting",  
  "headline": "From Shell to Excel - with a little bit of HTTPS",  
  "url": "https://csvbase.com/blog/10",  
  "description": "Write once, read everywhere",  
  "author": {  
    "@type": "Person",  
    "name": "Cal Paterson",  
    "email": "cal@calpaterson.com",  
    "url": "https://calpaterson.com/about.html"  
  },  
  "image": "https://csvbase.com/blog-static/excel.png",  
  "datePublished": "2024-08-12",  
  "dateCreated": "2024-08-12",  
  "dateModified": "2024-08-12"  
}  
```  
- @로 시작하는 키는 메타데이터(메타-메타데이터?)임   
  - `@context`는 네임스페이스를, `@type`은 클래스 타입을 나타냄  
  - 나머지 키는 BlogPosting 타입에서 허용되는 항목들임  
- 키의 값은 다른 유형일 수 있음 (author 키의 Person 처럼)  
  
##### 이게 나한테 무슨 이득이 있을까?   
- 누가 이걸 읽지? 많은 봇이 JSON-LD 메타데이터를 파싱함   
- 시맨틱 웹 메타데이터가 포함된 블로그 게시물은 소셜 미디어 사이트에서 링크 미리보기가 표시되거나 하여 클릭률을 높임   
- 검색 엔진 크롤러가 이 메타데이터를 사용하여 검색 결과에 더 많은 정보를 표시함  
- 자동화된 링크 어그리게이터 들이 이 데이터를 이용하여 포스트를 사용자에게 보여줌(안드로이드가 뉴스화면에 여러 사이트를 보여주는 것 처럼)  
- 시맨틱 웹 메타데이터는 권한이 필요 없고 벤더 중립적임  
  
##### 이건 어려울까 ?   
- 아님, JSON-LD 는 매우 간단함  
  - JSON-LD는 페이지에 이미 있는 정보를 컴퓨터가 읽을 수 있도록 배열한 것임  
- 프론트엔드 앱을 작성할 수 있다면 JSON-LD도 쉽게 이해할 수 있음  
  
##### JSON-LD의 다른 유형  
  
- BlogPosting 외에도 Event, LocalBusiness, JobPosting, Product, Recipe 등의 타입이 있음  
- csvbase는 Dataset 타입을 사용하여 테이블 데이터를 설명함.  
  
```json  
{  
  "@context": ["https://schema.org", {"csvw": "https://www.w3.org/ns/csvw#"}],  
  "@type": "Dataset",  
  "name": "stock-exchanges",  
  "url": "https://csvbase.com/meripaterson/stock-exchanges",  
  "isAccessibleForFree": true,  
  "distribution": [  
    {  
      "@type": "DataDownload",  
      "contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.csv",  
      "encodingFormat": "text/csv",  
      "contentSize": "16222"  
    },  
    {  
      "@type": "DataDownload",  
      "contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.parquet",  
      "encodingFormat": "application/parquet",  
      "contentSize": "10751"  
    },  
    {  
      "@type": "DataDownload",  
      "contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.xlsx",  
      "encodingFormat": "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet",  
      "contentSize": "15500"  
    },  
    {  
      "@type": "DataDownload",  
      "contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.jsonl",  
      "encodingFormat": "application/x-jsonlines",  
      "contentSize": "38627"  
    }  
  ],  
  "dateCreated": "2022-04-25T13:43:24.746075+01:00",  
  "dateModified": "2023-04-02T20:27:33.255648+01:00",  
  "maintainer": {  
    "@type": "Person",  
    "name": "meripaterson",  
    "url": "https://csvbase.com/meripaterson"  
  },  
  "description": "The world's stock exchanges...",  
  "mainEntity": {  
    "@type": "csvw:Table",  
    "csvw:tableSchema": {  
      "csvw:columns": [  
        {"csvw:name": "csvbase_row_id", "csvw:datatype": "integer"},  
        {"csvw:name": "Continent", "csvw:datatype": "string"},  
        {"csvw:name": "Country", "csvw:datatype": "string"},  
        {"csvw:name": "Name", "csvw:datatype": "string"},  
        {"csvw:name": "MIC", "csvw:datatype": "string"},  
        {"csvw:name": "Last changed", "csvw:datatype": "date"}  
      ]  
    }  
  }  
}  
```  
  
##### 이게 다 정말 필요한가? AI가 다 해결해주지 않을까 ?   
  
- 대형 언어 모델(LLM)은 종종 오류를 범함  
- 메타데이터를 제공하여 정확성을 보장하는 것이 중요함  
- LLM을 사용하면 비용이 많이 들고, 웹 페이지를 읽기 위해 GPU가 필요함  
  
##### 대체제들  
  
- Open Graph Protocol: Facebook에서 만든 표준으로, 주로 콘텐츠를 설명함  
- Microdata: 간단하지만 파싱하기 어려움  
- Twitter Cards: 트위터에서 콘텐츠를 어떻게 표시할지 설명함  
- XML 기반의 이전 표준들: 도서관 및 아카이브 시스템에서 깊이 지원됨  
  
##### 지루한 기술(Boring technology)  
  
- 시맨틱 웹이 이정도로 Low-Key라는 것은 매우 놀라움. 수많은 사이트가 이런 메타데이터를 이미 세팅하고 있음   
- "시맨틱 웹은 이미 널리 퍼져 있으며, 단지 승리의 순간이 없었을 뿐"  
  
##### GN⁺의 정리  
  
- 시맨틱 웹은 기계가 읽을 수 있는 웹사이트를 만드는 기술로, 이미 널리 사용되고 있음.  
- JSON-LD는 시맨틱 웹 메타데이터를 인코딩하는 주요 형식으로, 블로그 포스팅, 이벤트, 제품 등 다양한 타입을 지원함.  
- 시맨틱 웹 메타데이터는 소셜 미디어와 검색 엔진에서 링크 미리보기와 검색 결과 향상에 도움을 줌.  
- AI를 사용하여 메타데이터를 자동으로 추출하는 것은 비용이 많이 들고 정확하지 않을 수 있음.  
- Open Graph Protocol, Microdata, Twitter Cards 등 다양한 대안이 존재함.

## Comments



### Comment 28212

- Author: cometkim
- Created: 2024-08-22T17:29:08+09:00
- Points: 1

시맨틱웹의 역사와 오늘날의 위상에 대해 궁금하신 분들에겐 이 에세이를 추천합니다.  
  
https://www.lespetitescases.net/why-I-dont-use-semantic-web-technologies-anymore-even-if-they-still-influence-me

### Comment 28211

- Author: [hidden]
- Created: 2024-08-22T17:20:19+09:00
- Points: 1

[숨김 처리된 댓글입니다]

### Comment 28207

- Author: ipuris
- Created: 2024-08-22T11:31:18+09:00
- Points: 2

JSON-LD가 시맨틱 웹의 코어라거나 핵심 기술이라고 생각하지는 않지만, "시맨틱 웹은 이미 널리 퍼져 있으며, 단지 승리의 순간이 없었을 뿐"이라는 말은 많이 공감가는 내용이네요..!

### Comment 28192

- Author: neo
- Created: 2024-08-22T09:45:19+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=41307011) 
- **Semantic 웹 표준의 문제점**
  - 수십 년 동안 킬러 애플리케이션이 부족함
  - 웹의 질이 나빠졌고, 위키피디아 같은 사건이 없었음
  - 비전의 불완전성: SPARQL 쿼리와 reasoners는 유용하지만, 평균 사용자에게는 인지 비용이 높음
  - 더 나은 웹을 위해서는 여전히 Semantic 웹 방향이 필요함

- **시도 실패 경험**
  - 시도한 사이트에 "Poem" 카테고리가 없었음
  - 9년 전부터 요청되었지만 해결되지 않음

- **JSON-LD와 RSS 비교**
  - "Googlers, JSON-LD가 RSS만큼 인지도를 가질 수 있음"
  - 앱이나 서비스를 출시하고 종료하면 좋겠다는 의견

- **LLM과 Semantic 웹의 의미**
  - 의미는 출판자가 정의해서는 안 됨
  - 평균 출판자가 LLM보다 정확하게 분류할 수 있는지 의문
  - SEO 해킹과 블로그 스팸은 출판자가 유일한 진리의 원천이었기 때문
  - 의미를 정의하는 문제를 해결해야 함

- **Semantic 웹의 현재 상태**
  - Facebook과의 통합으로 승리를 선언하는 것은 Semantic 웹의 죽음을 의미함
  - OWL과 다른 표준은 페이지 내용을 주석 처리하는 것이 목적이었음
  - 저자, 제목, 사진, 출판 날짜 정보는 거의 무의미함

- **중요 개념 누락**
  - 링크 데이터, RDF, 연합 및 웹 쿼리 언급 없음
  - JSON-LD는 단지 직렬화 형식일 뿐
  - 링크 데이터 기술은 데이터의 상호 운용성과 재사용성을 높임
  - LLM과 링크 데이터는 상호 보완적임

- **PDF의 메타데이터**
  - PDF의 메타데이터도 Semantic 웹 표준을 기반으로 함
  - JSON-LD 대신 RDF를 XML로 작성함

- **HTML의 중요성**
  - HTML이 어려워서 회피하는 것 같음
  - 의미는 마크업에 숨겨져 있는 것이 아니라 마크업 자체임

- **AI와 메타데이터**
  - AI가 메타데이터를 대체하지 못하는 이유 두 가지
    - LLM이 자주 틀림
    - GPU 시간이 비쌈
  - LLM은 이미 99% 정확도를 보임
  - 미래에는 텍스트를 LLM에 통과시키는 것이 큰 문제가 되지 않을 것임

- **JSON-LD와 SEO**
  - Google은 JSON-LD를 SEO 개선을 위해 5년 이상 추진해옴
  - Open Graph 프로토콜로 대부분의 관련 페이지 메타데이터가 이미 캡처됨
  - 추가 작업을 통해 JSON-LD를 생성할 필요가 없음
