본문 바로가기
데이터사이언스

Doc2vec 실습하기

by _온기 2023. 12. 2.
반응형

Doc2vec은 자연어 처리(NLP) 분야에서 사용되는 한 기술로, 문서나 문장들을 벡터 공간에 매핑하는 데 사용된다.

이 기술은 다음과 같은 상황에서 유용하게 쓸 수 있다.

  • 유사성 측정: Doc2vec은 문서 간의 유사성을 측정하는 데 사용할 수 있다.
    예를 들어, 비슷한 주제를 가진 문서들을 찾거나 분류하는 데 도움이 된다.

  • 추천 시스템: 사용자가 관심을 가질 만한 문서나 제품을 추천하는 데 사용할 수 있다.
    사용자가 이전에 관심을 보인 내용과 유사한 문서를 추천하는 데 활용된다.

  • 정보 검색: 사용자가 입력한 질문이나 검색어와 관련된 문서를 찾는 데 도움이 된다.
    Doc2vec은 문서의 내용을 이해하고 관련 있는 문서를 찾는 데 유용하다.

  • 감정분석: 문서나 리뷰들의 감정(긍정적, 부정적 등)을 분석하는 데 사용된다.
    이를 통해 제품 리뷰, 소셜 미디어 게시물 등에서 사용자의 의견을 파악할 수 있다.

  • 자동 요약: 긴 문서를 요약하거나 핵심 내용을 추출하는 데 도움이 된다. Doc2vec은 문서의 중요한 특징을 파악하고 요약할 때 중요한 부분을 식별하는 데 사용된다.

Doc2vec는 이러한 상황에서 복잡한 자연어 데이터를 효과적으로 처리하고, 문서의 의미를 벡터로 변환하여 다양한 자연어 처리 작업에 활용된다.


실습해보기

이번에는 여성 옷 쇼핑몰 리뷰 사용

모델 설정 및 훈련

 

유사도 파악

결측치 제거, 데이터 프레임 확인

토크나이저 진행

분석 진행

반응형

댓글