본문 바로가기
흠념재

[흠념재 · 뉴스분석] 티스토리 · 1226에서 함께 해요!!!

by 에치필 한봉규 2024. 12. 26.

https://han.gl/cOme5

전략 가치는 함께 누린다. 전략컨설팅AI

 
   
    
▶ 동영상     https://han.gl/rG16y


▶ 뉴스 분석을 위한 논리적 사고  https://han.gl/CfvSJ
 


 

 
워드 임베딩에 대한 오해와 현실적인 접근


  • 워드 임베딩은 문맥 속에서 단어의 의미를 수치화하여 컴퓨터가 이해할 수 있도록 만드는 기술
  • 뉴스 기사 전체를 하나의 벡터로 표현하는 것은 일반적인 워드 임베딩의 목표가 아님.


그렇다면 어떻게 해야 할까요?
  1. 문장 단위 임베딩: 각 문장을 하나의 벡터로 표현하고, 이를 이용하여 기사를 분석하는 것이 일반적
  2. 토픽 모델링: LDA (Latent Dirichlet Allocation)와 같은 토픽 모델링 기법을 사용하여 기사의 주제를 추출하고, 각 주제를 벡터로 표현할 수 있음
  3. BERT와 같은 양방향 모델: Google의 BERT와 같은 모델은 문맥을 깊이 이해하고, 전체 문장을 하나의 벡터로 표현하는 데 효과적. 하지만, 매우 큰 모델이기 때문에 계산 비용이 많이 듬.


워드 임베딩을 활용한 뉴스 분석 예시
  • 유사 기사 찾기: 코사인 유사도를 이용하여 주어진 기사와 유사한 기사를 찾을 수 있음
  • 감성 분석: 기사의 긍정, 부정, 중립적인 감성을 분석할 수 있음.
  • 주제 분류: 기사를 여러 개의 카테고리로 분류할 수 있음.
  • 키워드 추출: 기사에서 중요한 키워드를 추출할 수 있음.


결론
뉴스 기사 전체를 하나의 벡터로 표현하는 것은 현실적으로 어려움. 대신, 문장 단위 임베딩, 토픽 모델링, BERT와 같은 모델을 활용하여 뉴스 기사를 분석하는 것이 더 효과적. by Gemini


워드 임베딩을 활용한 뉴스 분석 키워드 추출: 기사에서 중요한 키워드를 추출할 수 있음 ▼


  • 워드 임베딩은 단어를 고차원의 벡터 공간에 매핑하여 단어 간의 의미적 유사성을 파악하는 기술입
  • 이를 활용하여 뉴스 기사에서 중요한 키워드를 추출하는 방법은


  1. 텍스트 전처리: 불용어 제거, 형태소 분석, 정규화 등을 통해 텍스트 데이터를 정제
  2. 워드 임베딩 모델 학습: 대규모 텍스트 코퍼스를 이용하여 워드 임베딩 모델을 학습. 예를 들어, Word2Vec, GloVe, FastText 등
  3. 문장 벡터화: 전처리된 텍스트를 워드 임베딩 벡터의 평균 또는 가중 평균으로 변환
  4. 유사도 측정: 각 단어 벡터와 문장 벡터 간의 유사도를 계산하여 유사도가 높은 단어를 키워드로 선정.
by Gemini


뉴스 텍스트 데이터를 Word2Vec 모델에 적합한 형태로 전처리


  1. 문장 분리: 뉴스 텍스트를 문장 단위로 나눔
  2. 토큰화: 각 문장을 단어 단위로 분리
  3. 불용어 제거: 의미 없는 단어(예: 조사, 접속사 등)를 제거
  4. 소문자 변환 및 특수문자 제거: 영어 단어가 포함된 경우 소문자로 변환하고, 불필요한 특수문자를 제거
by Perflexity

 

뉴스 텍스트 데이터를 Word2Vec 모델 적용 결과
키워드
유사 단어
서울올림픽
"유치전", "1988년", "올림픽", "경제적", "준비"
여군
"예비군", "병무청", "훈련", "의무적", "새해"
예비군
"여군", "훈련", "병무청", "의무적", "계획"
트럼프
"발언", "파나마", "그린란드", "중국", "운하"
우크라이나
"북한군", "편지", "러시아", "전투", "생일"
독감
"환자", "백신", "유행주의보", "고령층", "접종률"
by Perflexity

 


 

♣12월 26일(목) 간추린 아침뉴스

 

 

 

 

● 서울시가 '2036 서울올림픽' 개최를 위한 만반의 준비를 마치고 본격적인 유치전에 뛰어들었습니다. 1988년 이후 48년 만에 서울에서 두 번째 올림픽이 개최될 수 있을지 주목됩니다. 개최에 드는 비용은 약 5조 800억원으로 가장 비쌌던 2016년 리우 올림픽의 3분의 1, 가장 경제적이었던 올해 파리 올림픽의 절반 수준입니다.

 

● 그동안 여군은, 전역한 후에 희망한 사람들에 한해서만 예비군 훈련을 받았습니다. 그 숫자가 전체 여군의 1%도 채 안 됐는데, 병무청이 새해부터는 여군 예비역들도 의무적으로 예비군 훈련을 받도록 하겠단 계획을 내놨습니다.

 

● 파나마 운하와 그린란드로 미국 영토를 넓히겠다는 트럼프의 폭탄 발언이 해당국의 거센 반발을 사고 있습니다. 그런데도 트럼프는 파나마가 사실상 중국 식민지라는 주장을 퍼 나르며 운하를 돌려받겠다는 뜻을 굽히지 않고 있습니다.

 

● 우크라이나가 전투 현장에서 사살한 북한군의 품에서 발견했다며, 한글로 적힌 편지를 공개했습니다. 러시아에 같이 파병된 동료의 생일을 축하하는 내용인데, 편지를 미처 전하지 못한 채 숨진 걸로 보입니다.

 

● 카자흐스탄에서 67명이 탄 여객기가 추락했습니다. 기체가 두 동강이 나면서 38명이 숨졌고, 29명은 기적적으로 생존했습니다. 새 떼와 충돌이 사고 원인으로 추정됩니다.

 

● 20~30대를 중심으로 1인 가구가 빠르게 늘고 있죠. 이런 가운데 빨래, 청소 같은 가사노동을 외부 업체에 맡기는 사례가 덩달아 늘고 있습니다. 가사노동이 낯선 젊은 층이 청소는 맡기고 남는 시간에 공부나 업무를 하는 게 낫다고 판단한 것이라며 가사 서비스를 제공하는 온라인 플랫폼 등으로 시장이 활발해진 영향도 크다고 분석했습니다.

 

● 중고거래 사기 행각으로 2억 원을 가로챈 혐의를 받는 20대 피의자가 일본에서 검거돼 국내로 송환됐습니다. 콘서트 표나 전자기기를 판다고 가짜 글을 올렸는데, 피해자만 780명에 달합니다.

 

● 바르기만 하면 살이 빠질 것처럼 허위, 과대광고를 한 화장품이 무더기로 적발됐습니다. 온라인에서 체형 관리, 체중 감량 등 효과를 내세운 화장품 광고 200건을 점검한 결과 124건이 허위, 과장 광고인 걸로 드러났습니다. 체형 관리에 효과가 있음을 앞세워서 화장품을 의약품으로 잘못 인식할 우려가 있는 광고가 대부분이었습니다.

 

● 자신의 은행 계좌에 잘못 송금된 돈을 함부로 사용한 20대에게 벌금 500만원이 선고 됐습니다. A 씨는 지난 1월 착오 송금된 2천만 원을 돌려주지 않고 사용한 혐의로 재판에 넘겨졌는데요. 은행 고객 센터로부터 잘못 송금됐습니다, 이런 문자 메시지를 받았는데도 이 남성은 그 돈을 생활비 등으로 쓴 걸로 조사됐습니다.

 

● 지난 21일부터 이틀간 18세 이상 남녀 1천 명을 대상으로 한 설문조사에서 '의료공백으로 피해나 불편을 겪었다'는 응답자는 23.5%, '가족, 친구 등 지인에게 피해나 불편 사례를 들었다'고 답한 비율은 51.1%로, 국민 4명 중 3명이 직간접적으로 피해를 접했다고 답했는데요. 피해 사례는 '응급실 수용 지연'이 가장 많았고, 진료 지연, 수술 지연 등이 뒤를 이었습니다.

 

● 내수 경기가 좀처럼 회복하지 못하면서 아예 문을 닫는 자영업자들이 늘고 있습니다. 자영업자들이 폐업하거나 은퇴할 때 받는 '노란우산' 공제금 지급액이 1조3 천억 원을 넘어섰습니다. 역대 최대치로, 지난해 같은 기간과 비교해도 10% 넘게 늘었습니다. 그만큼 한계 상황에 몰린 소상공인이 많다는 뜻입니다.

 

● 추운 날씨에 독감 환자가 급증하면서 지난주 전국에 독감 유행주의보가 내려졌는데요. 예년과 달리 65살 이상 고령층의 독감 백신 접종률이 목표치를 크게 밑돌고 있습니다. 독감은 특히 고령일수록 위험합니다. 독감에 걸리면 80살 이상 어르신 100명 중 3명꼴로 목숨을 잃는다는 통계가 있습니다. 백신을 접종하면 65살 이상에선 사망률이 80% 줄어듭니다.

 

● 목숨을 담보로 한 동심의 게임이 다시 돌아왔습니다. 넷플릭스에 따르면 '오징어게임 2'는 한국 시각으로 오늘 오후 5시 전 세계에 공개되는데요. 시사회 등에서 작품을 먼저 본 사람들의 반응은 대체로 긍정적입니다. 미국의 유명 평론가들은 시즌 2에 대해 깜짝 놀랄 만한 액션이 많다거나, 인간의 심리를 파고드는 걸작이라며 극찬했습니다.

 

● 연예계 기부 천사 가수 아이유가 연말을 맞아 소외 계층에게 또 5억 원을 기부했습니다. 이번 기부는 자신의 활동명과 팬클럽명 '유애나'를 합친 '아이유애나'의 이름으로 이뤄졌는데요. 서울아산병원과 서울아동복지협회 등을 통해 경제적 어려움을 겪는 환자와 자립 준비 청년, 취약계층과 장애인, 노숙인, 난청 아동 지원 등에 쓰일 예정입니다.

 

● 추위가 풀리나 싶었는데, 낮부터는 다시 찬 바람이 강하게 불겠습니다. 내일은 서울의 아침 기온이 영하 7도까지 떨어질 전망인데요. 경기 북부와 강원의 기온은 영하 12도 아래로 곤두박질할 것으로 보여 또다시 한파특보가 발령될 것으로 보입니다. 충청과 호남 서해안으로는 많은 눈도 내린다는 예보입니다.

 

출처 간추린 아침뉴스

 

 

 

 

 

#뉴스분석 #워드임베딩 #전처리 #Word2Vec #한봉규 #전략컨설팅H