본문 바로가기

분류 전체보기

(28)
꼬맨틀로 NLP(자연어 처리) 찍먹하기 (3) - 꼬맨틀 치팅 프로그램 만들기! (完) *필자는 자연어 처리 전문가가 아니라 말하는 감자입니다. 틀린 내용이 있다면 너그러히 이해하고 알려주세요. 반갑읍니다. 꼬맨틀 사골을 우리는 것도 이번 글로 마지막입니다. 사족으로 전처리 과정을 직접 돌려보신 분들은 아마도 '고작 꼬맨틀 하나 풀자고 이런짓까지 해야하나...?' 라는 생각이 드실텐데 저도 그랬읍니다. 긴 글 읽기는 귀찮고 결과 코드만 보고 싶은 분들을 위해서 코드만 따로 올려둡니다. * 소스코드 다운로드에서 zip 파일을 다운, 압축 해제 하시고 google colab 환경 혹은 local 환경에서 실행시켜 보시면 사용하실 수 있을 것 같습니다. 자잘한 사용법 및 오류는 귀찮으니 다루지 않으려는데 혹시 안되시면 댓글 남겨주시면 시간이 나면 답변하겠습니다. 본 글에서 다루는 코드는 제 gi..
꼬맨틀로 NLP(자연어 처리) 찍먹하기 (2) - 꼬맨틀 치팅 프로그램 만들기(데이터 전처리 과정) *필자는 자연어 처리 전문가가 아니라 말하는 감자입니다. 틀린 내용이 있다면 너그러히 이해하고 알려주세요. 저번글에서 꼬맨틀이 작동하는 기본적인 원리에 대해서 이야기를 했었습니다. 이번 게시글에서는 저번에 다루었던 word embedding의 개념과 vector similarity의 계산을 기반으로 하여 꼬맨틀 게임을 치팅 프로그램을 만들기 위한 전처리 과정을 다루겠습니다. 대부분의 내용이 python code를 분석하는 내용이라 '치팅만 할래...~' 하시는 분들은 다음글로 가시면 됩니다. 전처리 된 데이터만 날먹하시고 싶은 분들도 다음 글로... 우선 공개되어 있는 오픈소스를 제작자 분의 repo에서 가지고 와야 합니다만 이후 다룰 내용들도 있으니 그냥 제 github repo를 걸어두겠습니다. 다운..
꼬맨틀로 NLP(자연어 처리) 찍먹하기 (1) - 꼬맨틀의 단어 유사도 측정의 원리와 유사도가 이상한 이유! *필자는 자연어 처리 전문가가 아니라 말하는 감자입니다. 틀린 내용이 있다면 너그러히 이해하고 알려주세요. 최근에 친한 친구 덕분에 꼬맨틀이라는 게임을 알게 됐습니다. 꼬맨틀은 '단어 유사도 추측 게임'입니다. 나중에 시간이 되면 정리해볼 Wordle이라는 게임이 처음으로 하루에 모든 사람들이 동일한 단어를 제한된 기회 안에 맞추는 성격의 게임으로 인기를 얻었던 것 같습니다. 그 다음으로 나온 게임이 Semantle 입니다. Wordle이 횟수가 제한되어 있고, 단순히 일치하는 알파벳에 대한 정보를 줬지만, Semantle은 횟수 제한은 없고 단어를 입력하면 해당 단어가 정답 단어와 의미론적으로(Semantic하게) 얼마나 유사한 지에 대한 정보를 줍니다. 꼬맨틀은 Semantle의 한국어 버전이라고 볼..
들어가는 말 반갑습니다. 반도의 흔한 폐급 대학원생입니다. 과제나 사이드 프로젝트, 읽은 논문 정리 등 공부를 목적으로 블로그를 개설했읍니다. 얼마나 자주 업로드하고 어떤 내용들을 담을지는 전혀 생각해 본 적은 없습니다. 아마도 이런저런 컴퓨터 과학이나 공학 컨텐츠들, 종종 책이나 영화 같은 컨텐츠들을 다루지 않을까 싶네요. 잘 부탁드려 봅니다.