본문 바로가기
데이터사이언스

Word2vec 실습해보기

by _온기 2023. 12. 2.
반응형

Word2vec은 자연어 처리(Natural Language Processing, NLP) 분야에서 사용되는 기술로, 단어를 벡터 공간에 표현하는 것이다.

Word2vec은 언제 사용하는가?

단어의 의미 파악: Word2vec는 단어의 문맥적 의미를 벡터로 변환함으로
이를 통해 컴퓨터가 단어의 의미를 이해하고, 비슷한 의미를 가진 단어들을 찾을 수 있게한다.

효율적인 계산: 벡터 형태로 단어를 표현하면, 단어 간의 관계를 수학적으로 계산하기 용이하다.
예를 들어, 단어 간의 유사도를 계산할 수 있다.

언어 모델 향상: Word2vec를 사용하여 얻은 단어 벡터는 다양한 NLP 작업에서 언어 모델의 성능을 향상시키는 데 도움이 된다.
예를 들어, 기계 번역, 문서 분류, 감정 분석 등에 사용된다.

다양한 언어에 적용 가능: Word2vec는 한국어를 포함한 다양한 언어에 적용할 수 있으며, 각 언어의 고유한 특성을 반영한 단어 벡터를 생성한다.

Word2vec는 이러한 이유로 NLP 분야에서 중요한 도구로 사용되며, 언어의 복잡한 특성을 컴퓨터가 이해하고 처리할 수 있게 하는 데 큰 역할을 한다.


실습해보기

또 국민청원 데이터 입니다. 

 

Word2vec 실습해보기

데이터가 거대해서 시간이 좀 걸립니다.

Github을 그대로 복제해서 사용하고, 한국어데이터기 때문에 Konlpy를 사용합니다.

저는 보건 카테고리를 알아보기로 했습니다. 

학습된 모델의 벡터 크기를 확인하고, 궁금한 두 단어간의 유사도를 계산해봅니다.

유사도는 -1에서 1사이의 값을 가집니다.

연관성 Top5도 알아봤다.

연관성 없는거 Top5도 해봤다.

이건 알고리즘으로 나오는거라 명사로 지정할 수가 없는거더라

 

반응형

댓글