#워드아트#워드 클라우드 만들기 > 자유게시판

본문 바로가기

#워드아트#워드 클라우드 만들기

페이지 정보

profile_image
작성자 Elsa
댓글 0건 조회 54회 작성일 24-08-01 23:29

본문

안녕하세요~​5장은 워드클라우드 생성기 데이터 분석에서 가장 중요한 머신러닝 모델을 만드는 방법을 소개합니다! 머신러닝은 최적의 판단이나 예측을 하도록 데이터를 학습해나가는 과정으로 '기계 학습'이라고도 부르는데 이는 '지도학습'과 '비지도학습'으로 구분됩니다.​지도학습은 입력에 대해 어떤 출력이 나타나는지 아는 상태에서 규칙을 발견하는 학습 방법이고, 비지도학습은 사전지식이 없는 상태에서 스스로 규칙을 생성하는 학습방법입니다.​5장에서는 각각의 학습 방법에 존재하는 여러 알고리즘 유형에 대해 정리하며 모델링을 하는 방법에 대해 알아보려고 합니다.​들어가기 전에 가장 간단한 모델링이라 할 수 있는 워드 클라우드(Word Cloud)를 이용하여 토픽분석을 하는방법에 대해 정리하고 가겠습니다.​토픽분석 : 워드클라우드(Word Cloud) 시각화워드 클라우드란 특정 자료에서 특정 단어가 어느 정도의 빈도로 출현했는지를 시각적으로 보여주기 위해 빈도에 따라 단어의 크기를 다르게 하여 보여주는 모델입니다.​일반적으로 빈도수가 높을 수록 텍스트의 크기를 크게 합니다.​2년 전에 R 프로그래밍에서 텍스트 데이터를 워드 클라우드로 시각화하는 방법에 대해 정리한 적이 있습니다. 따라서 오늘은 파이썬에서 이를 워드클라우드 생성기 이용해보겠습니다.​토픽분석이란? 텍스트 데이터를 대상으로 단어를 추출하고, 이를 단어 사전과 비교하여 단어의 출현과 빈도...우선 파이썬 작업환경에 wordcloud 라이브러리를 설치해봅시다. 전 이번에는 작업 환경 중 구글 코랩을 이용했습니다!그러면 WordCloud( ) 함수를 사용할 수 있습니다.WordCloud(font_path, background_color, max_font_size, width, height).generate(text)차례로 폰트 파일, 배경색, 최대글자 크기, 가로와 세로 크기(픽셀)을 지정, text는 텍스트 파일WordCloud( ).generate_from frequencies(frequencies[, max_font_size=숫자]). 앞 위와 동일, frequencies는 인덱스는 단어이고 값은 숫자로 구성된 Series 데이터분석을 할 파일을 임의로 만들었습니다.​'단어'칼럼을 인덱스로 하여 판다스를 이용해 csv 파일을 불러오겠습니다. 참고로 결측치는 없게 했으니 전처리 과정은 생략하겠습니다. 배경색은 흰색으로 하여 워드 클라우드 이미지를 생성해봅시다. 만약에 단어가 한글일 경우엔 font_path Ϝ:/Windows/Fonts/malgun.ttf를 Word Cloud 함수의 인자로 추가하면 됩니다.​만약 작은 파일의 크기가 작다면 그냥 '워드클라우드생성기'라는 사이트에서 토픽분석을 할 수도 있긴 합니다. 그게 더 편하겠네요 ^^​워드클라우드 워클생성기 워클 단어구름 한글 워드클라우드 구름단어 글자구름 워드클라우드 생성기 구름글자 태그클라우드 워드클라우드 태그구름 랜덤이미지 블로그이미지 페이스북이미지wordcloud.kr지도 학습 : 회귀분석통계분석에서 잠깐 언급했었던 회귀분석은 독립변수가 종속변수에 어떤 영향을 미치는지변수 간 인과관계를 분석하는 방법입니다.​그래서 독립변수와 종속변수의 관련성을 분석하는 상관관계 분석과 다릅니다!​회귀분석은 회귀 방정식을 수립해 적절한 회귀선을 찾는 방식으로 분석이 이루어집니다. 여기서 최적의 회귀선을 찾기 위해 최소자승법이 이용되는데, 이는 잔차들의 제곱합을 최소로하는 선을 찾는다는 의미입니다.​잔차는 관측치와 예측치의 차를 의미합니다. 위 산점도에서 각각의 점들은 관측치이고 중심에 있는 대각선은 예측치입니다. 따라서 점들과 선의 거리가 가깝게 하는 최적의 선을 찾는 것이 모델의 설명력이 높아지는 조건이자 회귀분석의 최종 목표입니다.​그 최적의 선은 변수 간의 관계를 가장 잘 나타낼 수 있는 선이라고 볼 수 있으며 선의 기울기와 절편을 모델 파라미터라고 할 수 있습니다. 참고로 머신러닝은 최적의 모델 파라미터를 찾아나가는 과정입니다.​이러한 단순한 선을 회귀선으로 가지는 분석은 독립변수와 종속변수가 각각 한 개씩 가지는 워드클라우드 생성기 단순 회귀분석이고, 여러 개의 독립변수가 한 개의 종송변수에 미치는 영향을 분석할 때에는 다중 회귀 분석이 이용됩니다.​회귀분석을 시작하려면 우선 5가지 기본 가정을 충족해야합니다.1. 선형성 O종속변수와 독립변수의 관계가 선형적인지 산점도 회귀선으로 확인​2. 잔차 정규성 O잔차가 정규분포를 이루는지 정규성 검정으로 확인​3. 잔차 독립성 O잔차들이 서로 독립적인지 더빈-왓슨 값 확인​4. 잔차 등분산성 O잔차들의 분산이 일정한지 표준잔차와 표준예측치 도표로 확인​5. 다중 공선성 X3개 이상의 독립 변수 간의 강한 상관관계로인한 문제가 발생하는지 분산팽창요인으로 확인생성한 회귀모델을 산점도로 시각화해보고(1), 정규성 검정 함수인 shapiro.test( )로 p 값이 0.05 이상이 되는지 확인하고(2), dwtest( )로 더빈 왓슨 값의 p 값이 0.05 이하인지 확인해보고(3), 잔차의 분포를 시각화하여 등분산성을 점검합니다(4). 다중 회귀분석의 경우 다중 공선성은 vif( )로 다중팽창요인값이 10 아래인지 확인합니다(5).​※ Example잔차 0을 기준으로 적합값의 분포가 좌우 균등하면 잔차들의 등분산성이 인정되는데, 위 그래프는 그렇게 된거 워드클라우드 생성기 같다.​이렇게 기본 가정이 충족되어야지만 회귀방정식을 적용하여 회귀식을 수립하고 결과를 해석할 수 있습니다. R 프로그래밍 작업 환경에서 책에 있는 예제로 단순 선형 회귀분석을 수행해보겠습니다.​제품 적절성(독립변수)이 제품 친밀도(종속변수)에 영향을 미친다는 것을 연구가설로 두고 예제 데이터를 가져와 데이터프레임을 만들었습니다.lm( )으로 회귀모델을 생성하여 모델 파라미터인 절편과 기울기를 구해봅시다.절편이 1.1629이고 기울기가 0.5635인 일차함수의 회귀방정식이 수립되었습니다. ​회귀분석의 결과변수 중 예측한 적합값과 관측값, 그리고 모델의 잔차(관-적)가 궁금하다면 각각 fitted.values( ), head( ), residuals( ) 함수를 이용해 확인합니다.이번엔 선형 회귀분석 모델을 시각화해보겠습니다.​최소자승법에 따라 잔차의 제곱합이 작아야 회귀분석의 설명력이 높아지는데 딱 보이기에도 설명력이 낮을 듯 합니다. summary( )로 회귀분석의 결과를 확인해봅시다.회귀분석의 결과를 해석할 때에는 3 가지를 주의깊게 보면됩니다.​1. 회귀 계수들이 유의미한가?​해당 계수의 t 검정 통계량의 p 값이 0.05보다 작으면 해당 회귀계수가 통계적으로 유의하다고 볼 수 있습니다. 위 결과에서 x 변수의 t 워드클라우드 생성기 값은 2e-16으로 0.05보다 작기에 회귀 계수는 유의하다고 볼 수 있습니다.​2. 모형의 설명력은?​결정계수(R-squared)는 약 0.25로 1에서 멀기에 회귀모형의 설명력이 낮습니다. 즉, 회귀계수가 유의해 변수 간 인과관계가 있다고 볼 순 있지만, 데이터의 설명력은 낮다고 판단됩니다.​3. 회귀선이 모델에 적합한가?​분산분석의 결과로 나오는 F 검정통계량으로 회귀모형의 적합성을 판단합니다. 위의 결과를 보면 F-statistic이 86.97 일 때의 p-value는 '&lt2.2e-16'으로 0.05보다 작기에 회귀선이 모델에 적합하다고 볼 수 있습니다. 결과적으로 제품 적절성은 제품 친밀도에 영향을 미치긴 하지만, 이에 대한 설명력은 낮다고 볼 수 있습니다.이번엔 여러 개의 독립변수를 갖는 다중 회귀분석을 해보겠습니다. 연구 가설은 '제품의 적절성과 친밀도는 제품의 만족도에 영향을 미칠 수 있다.'입니다.절편과 기울기를 확인했으면 다중 회귀분석인 만큼 car 패키지의 vif( ) 함수로 분산팽창요인 값을 구하여 다중 공선성 문제를 확인합니다.VIF 값이 10 이상이면 다중 공선성 문제를 의심할 수 있는데 다행히 없는거 같습니다. 워드클라우드 생성기 만약 문제가 생겼다면 해결하는 방법은 참고서적(2.)의 486p를 참고하면 좋겠습니다!1. 회귀 계수 유의미?​제품적절성이 제품만족도에 미치는 영향의 p 값은 2e-16, 제품친밀도가 제품만족도에 미치는 영향의 p값은 0.014로 둘다 0.05보다 작으므로 회귀계수들이 유의미합니다. 따라서 연구가설을 채택할 수 있습니다.​2. 모형 설명력?​0.598로 다소 높은 상관관계를 나타내기에 설명력이 어느정도는 있다고 볼 수 있습니다.​3. 회귀선이 모델에 적합한가?​F 통계량 193.8의 p값은 2.2e-16으로 모형이 적합하다고 볼 수 있습니다.​다음 글에서는 파이썬에서 회귀 분석을 하는 방법, 그리고 로지스틱 회귀 분석 방법에 대해 정리해보겠습니다!참고 서적​1.​파이썬 기초 문법부터, 데이터 분석을 위한 다양한 실무예제까지 설명합니다!이 책은 다양한 예제를 바탕으로 기본적인 파이썬 문법에서부터 실무에 필요한 데이터 분석 기법까지 상세히 설명하고 있습니다. 파이썬을 처음 배우는 분들, 파이썬의 기본 문법은 익혔으나 활용 방법을 모르는 분들, 실무에 바로 적용할 수 있는 데이터 처리 방법을 익히고 싶은 분들에게 좋은 기본서가 될 것입니다.2.이론보다는 워드클라우드 생성기 예제 중심의 R 프로그래밍 학습서로 최신의 내용(R VER 4.0)으로 개정하여 다음 내용을 제공합니다.- 자료분석과 전처리·통계분석·기계학습 -■ 자료구조 유형 분석과 다양한 형태의 데이터 입출력 방법■ 탐색적 데이터 분석을 위한 시각화 방법■ 데이터 전처리와 파생변수 생성 방법■ 정형 데이터와 비정형 데이터 처리 방법■ 기술통계와 추론통계분석 방법■ 지도학습과 비지도학습에 의한 기계학습 방법■ 인공신경망 알고리즘을 적용한 예측분석 방법■ 시계열 데이터를 이용한 시계열 모형 생성 방법3.혼자 해도 충분하다! 1:1 과외하듯 배우는 인공지능 자습서이 책은 수식과 이론으로 중무장한 머신러닝, 딥러닝 책에 지친 ‘독학하는 입문자’가 ‘꼭 필요한 내용을 제대로’ 학습할 수 있도록 구성했다. 구글 머신러닝 전문가(GOOGLE ML EXPERT)로 활동하고 있는 저자는 여러 차례의 입문자들과 함께한 머신러닝&딥러닝 스터디와 번역ㆍ집필 경험을 통해 ‘무엇을’ ‘어떻게’ 학습해야 할지 모르는 입문자의 막연함을 이해하고, 과외 선생님이 알려주듯 친절하게 핵심적인 내용을 콕콕 집어준다. 컴퓨터 앞에서 〈손코딩〉을 워드클라우드 생성기 따라하고, 확인 문...​

댓글목록

등록된 댓글이 없습니다.


그누보드5
고객센터 063-715-3279
평일 : 00시 ~ 00시 점심시간 : 00시 ~ 00시
토, 일, 공휴일 휴무