본문 바로가기
반응형

데이터사이언스17

직장인 ADsP 공부법 한번에 합격후기 관련사이트: https://www.dataq.or.kr/www/sub/a_06.do 데이터분석 준전문가(ADsP : Advanced Data Analytics Semi-Professional)란 데이터 이해에 대한 기본지식을 바탕으로 데이터분석 기획 및 데이터분석 등의 직무를 수행하는 실무자를 말한다. 전문가 단계는 아니지만 ! , 전문가로 가는 첫번째 스텝입니다. 공부방법 1. 시험에 대해 이해하기 - 유튜브로 최신 후기 영상 찾아보기 https://youtu.be/v_3hEj6l7ls - 위에 '데이터 자격검정'사이트에서 시험 유형 파악하기 2. 맛보기 - 아무런 개념이 없다면 비빅터의 다섯시간 강의를 들어보자. 처음에 그냥 틀어놔도 된다. https://youtu.be/iwUYHUPwL30 3.감을.. 2024. 3. 15.
Doc2vec 실습하기 Doc2vec은 자연어 처리(NLP) 분야에서 사용되는 한 기술로, 문서나 문장들을 벡터 공간에 매핑하는 데 사용된다. 이 기술은 다음과 같은 상황에서 유용하게 쓸 수 있다. 유사성 측정: Doc2vec은 문서 간의 유사성을 측정하는 데 사용할 수 있다. 예를 들어, 비슷한 주제를 가진 문서들을 찾거나 분류하는 데 도움이 된다. 추천 시스템: 사용자가 관심을 가질 만한 문서나 제품을 추천하는 데 사용할 수 있다. 사용자가 이전에 관심을 보인 내용과 유사한 문서를 추천하는 데 활용된다. 정보 검색: 사용자가 입력한 질문이나 검색어와 관련된 문서를 찾는 데 도움이 된다. Doc2vec은 문서의 내용을 이해하고 관련 있는 문서를 찾는 데 유용하다. 감정분석: 문서나 리뷰들의 감정(긍정적, 부정적 등)을 분석하.. 2023. 12. 2.
Word2vec 실습해보기 Word2vec은 자연어 처리(Natural Language Processing, NLP) 분야에서 사용되는 기술로, 단어를 벡터 공간에 표현하는 것이다. Word2vec은 언제 사용하는가? 단어의 의미 파악: Word2vec는 단어의 문맥적 의미를 벡터로 변환함으로 이를 통해 컴퓨터가 단어의 의미를 이해하고, 비슷한 의미를 가진 단어들을 찾을 수 있게한다. 효율적인 계산: 벡터 형태로 단어를 표현하면, 단어 간의 관계를 수학적으로 계산하기 용이하다. 예를 들어, 단어 간의 유사도를 계산할 수 있다. 언어 모델 향상: Word2vec를 사용하여 얻은 단어 벡터는 다양한 NLP 작업에서 언어 모델의 성능을 향상시키는 데 도움이 된다. 예를 들어, 기계 번역, 문서 분류, 감정 분석 등에 사용된다. 다양한 .. 2023. 12. 2.
Gensim을 활용한 토픽 모델링 Gensim 모델은 왜 쓰는가? Gensim 모델은 언제 쓰는가? 토픽 모델링 Gensim은 LDA(Latent Dirichlet Allocation)와 같은 토픽 모델링 알고리즘을 제공한다. 이를 사용하여 대량의 문서에서 주제를 추출하고 문서가 다루는 주요 개념을 이해할 수 있다. 문서 유사성 분석: 문서 간 유사도를 계산하는 것은 문서 분류, 추천할때 쓸 수 있다. Gensim의 Doc2Vec과 같은 모델은 이러한 작업에 적합하다. 차원 축소: 텍스트 데이터의 차원을 축소하여 계산 효율성을 높이고, 더 나은 시각화를 가능하게한다. 예를 들어, Gensim의 Word2Vec 모델을 사용하여 단어를 벡터 공간에 맵핑할 수 있습니다. 분산 컴퓨팅: Gensim은 분산 메모리 컴퓨팅을 지원하여 대용량 데이터.. 2023. 12. 2.
LDA란 무엇인가? LDA는 '잠재 디리클레 할당(Latent Dirichlet Allocation)'의 약자로, 문서 집합에서 주제를 모델링하기 위한 일종의 확률적 토픽 모델입니다. 이 방법은 문서가 여러 개의 주제로 구성될 수 있으며, 각 주제가 단어의 확률 분포를 가진다는 가정 하에 작동합니다. LDA의 목적은 각 문서에 대해 어떤 주제들이 얼마나 중요한지를 추정하고, 동시에 각 주제가 어떤 단어들로 구성되어 있는지를 파악하는 것입니다. 이러한 접근 방식은 텍스트 마이닝, 문서 분류, 정보 검색 등 다양한 분야에서 활용됩니다. 디리클레(Dirichlet)는 주로 통계학과 확률론에서 사용되는 개념으로, '디리클레 분포(Dirichlet distribution)'를 말합니다. 디리클레 분포는 여러 개의 비율이나 확률들이 .. 2023. 11. 27.
AI 융합의 시대 - LG전자 신정은 상무 특강 다양한 IT 기술을 연결하고 융합하고 고객가치로 창출하는일을 CTO 부문에서 함 비즈니스 특화 모델이 중요함 공간단위 지수는 돈이 된다. → 인사이트를 가진 통계 결합 자료는 판매/구매 가치가 있다. → 결혼 임박지수 이런거 발굴하면 성과로 인정 → 불만지수 (왜 이탈하지?, 콜센터로 전화 했을때 불만지수가 높은 고객은 친절하게 해야함) 가명결합중요 embeding에 대해 고민할 수록 기회가 많아진다. 인사이트 가설 예시 식기세척기 - 급속, 세탁기 급속, 쿡탑 강불을 쓰는 사람들은 운전도 급하게 할까? LG는 3개의 팀으로 이루어짐 데이터 컨설턴트 데이터 엔지니어 데이터 사이언티스트 https://www.lgcns.com/careers/job/data/ 고객 인사이트를 통해서 , 광고를 어떤식으로 타겟.. 2023. 11. 25.
데이터 분석 EDA란 무엇인가? (feat.삽질을 덜 하려면) 나만 몰랐나? 싶어서 작성해보는 EDA EDA는 데이터 분석에서 "탐색적 데이터 분석(Exploratory Data Analysis)"을 의미한다. 이 접근 방식은 주로 데이터를 분석하고 요약하는 데 초점을 맞추며, 통계적 그래프와 시각적 방법을 사용한다. EDA의 주요 목적은 데이터 내에서 패턴, 이상치, 특징 등을 탐색하고 이해하는 것이다. 데이터에 대한 직관을 얻고, 더 복잡한 분석이나 모델링 전에 데이터의 구조와 필요한 처리 방법을 파악할 수 있다. EDA는 데이터 과학과 통계 분석의 중요한 초기 단계로, 데이터에 대한 명확한 이해를 제공하여 효과적인 분석과 결정에 필수적인 단계다. 이게...이토록 중요하다고 생각한 이유는 삽질을 통해 얻은 교훈 때문이다. 무작정 '분석'이 뿅 하고 튀어나오는게 .. 2023. 11. 24.
책리뷰) 모두의 한국어 텍스트분석 with 파이썬 박조은, 송영숙 저 책리뷰) 모두의 한국어 텍스트분석 with 파이썬 박조은, 송영숙 저 너무 좋은 책을 발견해서 리뷰를 진행하게 되었다. 파이썬이 대중화 되면서 '아 이제 GPT를 활용해서 코드를 짤 수 있겠구나' 라고 생각하는 사람도 있겠지만 '안해봤다'라는 허들이 높아서 도전조차 못하는 사람들을 위해 AtoZ를 알려주는 책이다. 책 표지에도 '기초부터 chat gpt까지 누구나 쉽게 시작하는 자연어처리'라고 소개하고있다. 오늘코드를 통해 박조은님의 도움을 많이 받았던만큼 이번 책도 기대되었다. https://www.youtube.com/c/todaycode 오늘코드todaycode 공공데이터 분석 데이터 시각화 캐글을 통한 머신러닝/딥러닝 튜토리얼 Pandas, Numpy, Scipy, scikit-learn, Ten.. 2023. 8. 12.
딥러닝 기초 용어 개념 정리 안녕하세요 ! 온기입니다. 공부하면서 겸사겸사 딥러닝 기초 용어 정리를 해보려고 합니다. 끄적끄적 노트도 첨부합니다. 신경망이란? 신경망은 인공지능에서 많이 사용되는 모델 중 하나입니다. 우리 뇌 구조를 모방해서 만든 것으로, 여러 층으로 이루어져 있고 입력(input)과 출력(output)을 처리할 수 있습니다. 신경망은 학습을 통해서 입력값과 출력값 사이의 관계를 학습하고 예측하는 역할을 합니다. 신경망 층(layer)은 무엇인가? 신경망의 층은 입력층(input layer), 은닉층(hidden layer), 출력층(output layer)으로 이루어져 있습니다. 입력층은 데이터가 입력되는 곳이고 출력층은 결과값이 출력되는 곳입니다. 중간에 있는 층이 은닉층이고,은닉층은 여러 개가 있을 수 있습니다.. 2023. 4. 9.
초보자가 데이터 사이언스 분야에서 살아남기 생소한 분야를 공부하다보면 막막하다. 앞으로 어떻게 사용할지도 모르겠는데 그래서 내가 앞으로 살아남기 위한 방법들을 정리해본다. 1.기술 역량 쌓기 데이터사이언스는 어쩔 수 없다. 완전 인문분야가 아닌이상 기술을 익힐 수 밖에 없다. 프로그래밍 언어 (파이썬 등), 통계, 데이터 시각화, 기계 학습 등 공부 해야하는 내용이 많다. 교육과정을 따라가기도 급급하겠지만 포기하면 안된다. 틈틈이 개인프로젝트를 수행하면 금상첨화일것이다. 2.인턴십 , 프로젝트 경험 (직장인이라 불가능하다면 공모전 경험이라도) 실무경험을 쌓으려면 인턴십이 제일 좋지만 불가능하다면 사이드 프로젝트와 공모전 경험이라도 쌓아야 한다. 데이터사이언스 분야에서는 실무 경험이 없이는 취업도 없다고 생각한다. Kaggle 대회나 오픈소스 프로.. 2023. 2. 21.
통계는 왜 어려울까? 데이터사이언스를 공부하다보면 통계가 베이스가 된다. 학점으로 듣는것과 별개로 잘 이해하고 자유자재로 사용하고 싶은데 머리가 따라주지 않는다. 사실 교수님들은 잘 가르쳐줄 필요가 없다. 걍 한 학기 마치면 땡이지 뭐 알아서 살아남을것이다.이겨내리라 유튜브에서 발견한 멋진강의 https://youtu.be/NG1ZNH1kOl0 결정론적 의사결정: 1) 학원을 다녔더니 수학점수가 10점이 올랐어 2) 판매전략의 변화로 매출이 1000만원 올랐어 3)여친과 헤어지고 나서 체중이3kg 늘었어 통계적 의사결정: 1) 학원을 다녔더니 수학점수가 우연히 10점이 오를 가능성은 얼마일까? 2) 판매전략의 변화로 매출이 우연히 1000만원 오를 가능성은 얼마일까? 3)여친과 헤어지고 나서 체중이 우연히 3kg 늘어날 가능.. 2023. 1. 17.
분석을위한 데이터셋은 어디서 가져오지? 안녕하세요 오랜만입니다. 흥미로운 기사가 있어서 스크랩해왔습니다. 학습용 데이터가 있어야 설계를 하는데, 원천 소스를 어디서 가져올지 궁금했었는데요 1.AI 허브 https://www.aihub.or.kr/ AI-Hub 주간 인기검색어 TOP5 AI 허브 데이터 검색 추천검색어 www.aihub.or.kr 2. 구글에서 제공하는 DATASET 검색 서비스 https://datasetsearch.research.google.com/ Dataset Search datasetsearch.research.google.com 데이터를 공부하는 분들께 도움이 되길 바랍니다! 좋은 재료들을 가지고 멋진 요리를 만드는 마음으로 데이터를 분석해보면 어떨까요? 2022. 11. 7.
파이썬 총점과 평균 구하기 코드 출력 2022. 10. 26.
[파이썬] 터틀그래픽 파이썬 정삼각형 그리기 문제 내 답 출력화면 2022. 10. 25.
[파이썬] 기초 실습 명함 만들기 print() 문제 내 답 출력화면 (모범답안이 아니라 실습 내용을 기억하기 위해 기록해 놓는것 임) 2022. 10. 24.
파이썬 소수점 표기 방법 val=10/3 print("넷째자리까지 출력:%0.4f"%val) 2022. 10. 9.
01. 통계 공부 용어 정리 내용 출처 : 30분 통계학 - 구라타 히로시 지음, 김소영 옮김 모집단 : 실험이나 조사 등을 수행할 때 계측 또는 관츩의 대상인 사람이나 사물의 집합을 '모집단'이라 한다 개체 : 모집단에 포함되는 요소 전수조사 : 모집단의 모든 개체를 대상으로 하는 조사 표본조사 : 모집단의 일부를 추출하여 하는 조사 표본 : 표본 조사에서 추출한 개체의 집합 포본의 크기 (표본의 사이즈) : 개체 수 통계학의 역할 1. 개념의 계량화 (수치로 나타냄) ex) 경제활동 규모, 지적 능력 2. 예측 - 회귀분석 : 관계를 직선으로 기술하는 통계 기법 (전자의 값이 커지면----후자의 값도 커지는 관계) -시계열 해석 3. 통계학의 역할 : 가설 검정과 분류 데이터의 척도 수준 척도명 개요 예시 해당하는 변량 명목척도.. 2022. 9. 14.
반응형