15P by hongminhee 2021-10-09 | favorite | 댓글 13개

안녕하세요. GeekNews에 계정을 만들고 나서, 그 동안 그저 잘 읽기만 해왔는데, 한글날이 되니 올해 초에 만들었던 《한·중·일 전산학 용어 대조》표가 떠올라서 Show GN으로 공유해 봅니다.

어느 전문 분야나 그런 경향이 있지만, 요즘에는 편의상 전산학 용어를 예전부터 이미 정착된 번역어를 쓰지 않고 영어를 외래어로서 그대로 쓰는 경우가 많습니다. 이를테면 요즘에는 “값”도 그냥 “value”라고 말하고 쓸 때도 많지요.

아무튼 한국어에도 이미 수십년 전부터 정착된 좋은 전산학 번역어들이 많은데요. 이들 중 상당수가 같은 한자문화권인 일본이나 대만과 공유된다는 걸 알게 되어서, 재미삼아 만들었던 대조표입니다. 한글날 기념으로 한 번 구경해 주셔도 좋을 것 같습니다.

소스 코드는 < https://github.com/dahlia/cjk-compsci-terms >에 있습니다. 각 용어들은 tables/ 디렉터리 안에 분류에 따라 YAML 파일로 정리되어 있으니, 용어를 추가하거나 오류를 수정하는 PR도 환영합니다.

읽어주셔서 고맙습니다!

문의사항이있습니다.
YAML에있는 중국어와 일본어 표기를 보니 한국에서 사용하는 한자 표기를 쓰고 하위에 term으로 번체, 간체, 일본식 약자 표기를 한걸 확인하였습니다.
어떤 의도로 개발하였는지 궁금하네요
예를들어 Source Code에 대해서는
중국 대륙(zh-CN) 한국어 한자표기 표현으로 "源代碼"와 "源程序"를 사용한다고하는데
term에는 간체표기를 제대로 한거보면 일관성이 안맞다고 보여지긴합니다.
참고로 Source Code는
중국대륙에선 源代码、源码、源程序를 주로 사용
대만에선 原始碼、原始程式碼로 사용함
홍콩에서 原始碼, 源碼 를 사용한다고 들었습니다.

그리고, Computer의 경우
중국 대륙에선 공식적으로 "电子计算机"이며, 많은 책과 문서에서 Compuer에 대한 표기를 "计算机"를 씁니다만,
대만, 홍콩의 영향으로 사람들이 "电脑"도 혼용하여 많이 사용합니다.
참고1: https://zh.wikipedia.org/wiki/…
참고2: 电脑吧 https://tieba.baidu.com/f?kw=%B5%E7%C4%D4&fr=ala0&tpl=5
징동닷컴 CPU코너 : https://pcdiy.jd.com/
징동닷컴 노트북코너: https://list.jd.com/list.html?cat=670,671,672

그래서, 이 부분은 정부 공식 표기 위주로 진행할것인지 확인을 해야할 것이 많아보입니다.

중화권에서 사용하는 표기가 제각각이고, 사용하는 사람마다 빈도수가 다른 경우가 있으니 고려해야할 대상도 많을 것으로 보입니다.

귀중한 의견 고맙습니다.

우선, 먼저 웹으로 출판된 페이지를 먼저 확인해 보시면, 대륙 중국어의 용어 중에 간화자가 아닌 한국식 한자 표기로 표시된 항목이 없는 것을 확인하실 수 있을 것입니다. YAML 데이터에서 term 필드만이 실제 화면에 표시되는 내용이기 때문에, 말씀하신 것처럼 term에서만 각 지역에서 쓰는 표기 방식으로 적은 것입니다 (단, 한국어의 경우 한글 대신 한국식 한자로 표기).

그렇다면 그보다 위쪽에 쓰인 《강희자전》체의 문자열이 무엇이냐면, 그냥 데이터 안에서 서로 다른 언어 (또는 방언) 사이의 동계어들을 묶기 위한 임의의 그룹 식별자입니다. 임의이기 때문에 굳이 한자일 필요도 없고 그냥 숫자나 해시를 써도 됩니다. 그렇지만 이를테면 일본어 「科学」와 대만 중국어 「科學」은 하나의 동계어로 연결되어서 보여야 하기 때문에, 같은 그룹 식별자를 공유해야 합니다. 비슷하게 한국어 「컴퓨터」와 일본어 「コンピュータ」 역시 같은 그룹 식별자로 묶여야 합니다.

식별자를 그냥 「foobar」 같은 임의의 무의미한 문자열로 해도 되겠지만 편의상 내용을 드러나고 일관된 규칙에 따라 짓는 게 관리하기 편하겠다고 생각했습니다. 따라서 영어 유래어는 로마자로, 한자어는 한자로 표기하는 것이 가장 쉽게 떠올릴 수 있는 규칙이었습니다. 단, 한자 표기도 다양한 방식이 있을 수 있기 때문에, 여러 속자나 이체자 등을 정규화해야 했고 (그룹 식별자이므로 하나로 모아야겠죠), 이 과정에서 자연스럽게 중국의 간화자나 일본의 신체자는 후보에서 탈락했습니다. 각 지역 기준 독음이 같다고 서로 다른 글자를 합친 경우가 꽤 있기 때문에 정규화에 부적합하기 때문입니다 (분류 정보 손실). 따라서 선택지는 홍콩의 번체나 대만의 정체, 한국식 한자 따위 중에 고를 수밖에 없는데, 현존하는 어떤 정치체와 연결된 함의가 없다고 볼 수 있는 《강희자전》체를 기준으로 삼았습니다.

이상의 내용은 저장소 내의 CONTRIBUTING.md 파일을 보시면 이미 기술되어 있는 내용입니다. 그 밖의 부분도 적혀 있으니 참고해주셔도 좋을 것 같습니다.

언중이 같은 뜻을 가르키는 여러 낱말 중 어떤 것을 가장 많이 쓰는지, 즉 어휘의 분포를 폭넓게 파악하는 것은 전문 연구자도 아닌 일개 개인이 조사하기에는 비용도 시간도 너무 많이 필요해서 무리입니다. 컴퓨터 과학 연구에 종사하거나 소프트웨어 개발에 임하는 사람들 사이에서 용어 사용의 분포를 조사한 선행 연구가 있다면 저도 적극적으로 활용하고 싶지만, 그런 것이 딱히 없다면 저로서는 여러 참여자들의 도움, 특히 각 언어의 원어민 화자의 제안이 절실히 필요합니다. 당연히 지금까지는 홀로 조사했기 때문에 중국어 위키백과나 바이두 백과 등을 중심으로 조사할 수밖에 없었습니다.

말씀하신 구체 사례들에 대해서는 풀 리퀘스트를 보내주시면 더 빠르게 반영할 수 있을 것 같습니다.

긴 댓글 읽어주셔서 감사합니다.

홍콩정부에서 발간하는 English-Chinese Glossary of IT Terms 참고하시면 홍콩에서 사용하는 용어 정리가 될겁니다.
https://ogcio.gov.hk/en/our_work/…

좋은 정리 감사합니다.
나중에 기회 되면 북한의 전산 용어에 관한 자료도 보고 싶군요. 통일부 북한자료센터에 적절한 자료가 있을지 모르겠습니다.

이미 통일부 사이트에 존재합니다
남북한 IT용어 비교: https://nkinfo.unikorea.go.kr/nkp/term/skNkItTerm.do

북조선의 리눅스 배포본인 붉은별 같은 걸 뜯어보면 뭔가 자료가 나올 수도 있을 것 같네요. 《조선말대사전》도 들어있던 것 같던데… 한 번 시간 날 때 북조선말도 추가해 보도록 하겠습니다!

남북한 IT용어 비교: https://nkinfo.unikorea.go.kr/nkp/term/skNkItTerm.do
이걸 스크래핑 하면 빠르게 추가할 수 있을 것 같습니다.

잘 보니 스크래핑할 필요도 없이 xls 포맷의 파일로 해당 내용을 전체 제공하고 있군요.

ko를 ko-kr과 ko-kp를 분리해서 북한 전산용어를 달면 좋겠네요

Markdown처럼 <>로 묶으면 URL 경계가 잡힐 줄 알았는데 아니었네요. 😅 저장소 링크는 이쪽입니다: https://github.com/dahlia/cjk-compsci-terms

마크다운 지원 작업을 해야 하는데 아직 못하고 있습니다 ㅠ
제가 URL 클릭 가능하게 앞뒤로 빈칸만 추가해서 수정해두었습니다.

근데 정말 한글날에 잘 어울리는 Show 네요. 재미나게 보겠습니다!

본문도 고쳐주셔서 고맙습니다!