Word2vec은 자연어 처리(Natural Language Processing, NLP) 분야에서 사용되는 기술로, 단어를 벡터 공간에 표현하는 것이다.
Word2vec은 언제 사용하는가?
단어의 의미 파악: Word2vec는 단어의 문맥적 의미를 벡터로 변환함으로
이를 통해 컴퓨터가 단어의 의미를 이해하고, 비슷한 의미를 가진 단어들을 찾을 수 있게한다.
효율적인 계산: 벡터 형태로 단어를 표현하면, 단어 간의 관계를 수학적으로 계산하기 용이하다.
예를 들어, 단어 간의 유사도를 계산할 수 있다.
언어 모델 향상: Word2vec를 사용하여 얻은 단어 벡터는 다양한 NLP 작업에서 언어 모델의 성능을 향상시키는 데 도움이 된다.
예를 들어, 기계 번역, 문서 분류, 감정 분석 등에 사용된다.
다양한 언어에 적용 가능: Word2vec는 한국어를 포함한 다양한 언어에 적용할 수 있으며, 각 언어의 고유한 특성을 반영한 단어 벡터를 생성한다.
Word2vec는 이러한 이유로 NLP 분야에서 중요한 도구로 사용되며, 언어의 복잡한 특성을 컴퓨터가 이해하고 처리할 수 있게 하는 데 큰 역할을 한다.
실습해보기
또 국민청원 데이터 입니다.
Word2vec 실습해보기
데이터가 거대해서 시간이 좀 걸립니다.
Github을 그대로 복제해서 사용하고, 한국어데이터기 때문에 Konlpy를 사용합니다.
저는 보건 카테고리를 알아보기로 했습니다.
학습된 모델의 벡터 크기를 확인하고, 궁금한 두 단어간의 유사도를 계산해봅니다.
유사도는 -1에서 1사이의 값을 가집니다.
연관성 Top5도 알아봤다.
연관성 없는거 Top5도 해봤다.
이건 알고리즘으로 나오는거라 명사로 지정할 수가 없는거더라
'데이터사이언스' 카테고리의 다른 글
직장인 ADsP 공부법 한번에 합격후기 (0) | 2024.03.15 |
---|---|
Doc2vec 실습하기 (0) | 2023.12.02 |
Gensim을 활용한 토픽 모델링 (0) | 2023.12.02 |
LDA란 무엇인가? (1) | 2023.11.27 |
AI 융합의 시대 - LG전자 신정은 상무 특강 (1) | 2023.11.25 |
댓글