안녕하세요
잘보고 계시다니 너무 다행입니다

답변이 너무 늦었네요 죄송합니다

Q: 매일 hackernews 에 신규로 추가되는 http 에 대해서 전체 추출하여 해당 내용을 보내주시는 걸까요?
A:
다음과 같은 과정으로 뉴스를 수집하고 발송하고 있습니다

  1. 해커 뉴스에서 등록된 뉴스를 조회할 수 있는 API(https://hacker-news.firebaseio.com/v0/topstories.json) 를 제공하고 있습니다
  2. 해당 API 를 이용해서 인기있는 50개의 뉴스를 불러오고 데이터베이스에 등록합니다
    (데이터는 가져오는 과정에서 데이터베이스에 이미 존재하고 있다면 제외하고 받아옵니다)
  3. 추가된 뉴스의 데이터를 AI 로 요약합니다(URL 은 Jina API 를 이용해서 데이터를 파싱합니다)
  4. 이렇게 한글로 요약된 뉴스를 매일 아침 7시에 일괄 이메일 발송하고 있습니다

Q: 그러면 초기 hackernews 에 등록되어 있는 전체 http 들을 확인하고, 그 다음날 부터 신규 추가되는 내용들을 그 http 들과 비교하여 없는 것들만 추가해서 보내주시는 걸까요?
(기존 등록된 hackernews 의 http 량이 많아서 이 방식이 가능한지, 아니면 다른 방식으로 필터링해서 보내시는지 궁금합니다)
A:
해커 뉴스에 NewsID 라는 각 뉴스별로 고유한 값이 있습니다
이 값 역시 데이터베이스에 저장해서 중복 저장되는걸 막고 있습니다

원하는 질문에 답이되셨길 바랍니다
감사합니다 🙇‍♂️