본문 바로가기
흠념재

[흠념재 · 뉴스분석] 티스토리 · 0109에서 함께 해요

by 에치필 한봉규 2025. 1. 9.

 
https://han.gl/cOme5

전략 가치는 함께 누린다. 전략컨설팅AI

 

      
▶ 동영상     https://han.gl/rG16y


▶ 뉴스 분석을 위한 논리적 사고  https://han.gl/CfvSJ

 


 
'워드 임베딩' 기법을 통한 뉴스분석 [예시]
  • 유사 기사 찾기: 코사인 유사도를 이용하여 주어진 기사와 유사한 기사를 찾을 수 있음
  • 감성 분석: 기사의 긍정, 부정, 중립적인 감성을 분석할 수 있음.
  • 주제 분류: 기사를 여러 개의 카테고리로 분류할 수 있음.
  • 키워드 추출: 기사에서 중요한 키워드를 추출할 수 있음.



이를 활용하여 뉴스 기사에서 중요한 키워드를 추출하는 방법은


  1. 텍스트 전처리: 불용어 제거, 형태소 분석, 정규화 등을 통해 텍스트 데이터를 정제
  2. 워드 임베딩 모델 학습: 대규모 텍스트 코퍼스를 이용하여 워드 임베딩 모델을 학습. 예를 들어, Word2Vec, GloVe, FastText 등
  3. 문장 벡터화: 전처리된 텍스트를 워드 임베딩 벡터의 평균 또는 가중 평균으로 변환
  4. 유사도 측정: 각 단어 벡터와 문장 벡터 간의 유사도를 계산하여 유사도가 높은 단어를 키워드로 선정.
by Gemini


뉴스 텍스트 데이터를 Word2Vec 모델에 적합한 형태로 전처리


1. 전처리 단계:
  • 특수문자 및 불필요한 기호 제거
  • Mecab을 이용한 형태소 분석
  • 문장 단위 분리
  • 불용어 제거
  • 명사, 동사, 형용사만 선택


2. Word2Vec 분석:
  • 벡터 크기 100 차원
  • 문맥 윈도우 크기 5
  • 모든 단어 포함 (min_count=1)
  • 4개의 워커로 병렬 처리
 
'유사도 점수' 의미
유사도 점수가 낮다는 것은 '중요도'와는 다른 개념.


1. 유사도 점수의 의미
  • 단어들이 얼마나 비슷한 문맥에서 사용되는지를 나타냄
  • 같이 등장하는 빈도와 패턴을 기반으로 계산됨
  • 점수가 1에 가까울수록 두 단어가 비슷한 맥락에서 자주 사용된다는 의미


2. 낮은 유사도 점수가 나타내는 것
  • 단어들이 서로 다른 문맥에서 사용된다는 것
  • 직접적인 연관성이 적다는 것
  • 독립적인 주제나 영역을 다룬다는 것


3. 예시를 통한 이해
  • "재해/날씨" 군집의 유사도가 0.687로 낮은 이유:
  • "산불"과 "한파"는 둘 다 중요한 재해지만 전혀 다른 상황에서 발생
  • 계절이 다르고, 관련된 단어들도 다름
  • 따라서 낮은 유사도는 오히려 주제의 다양성을 보여줌


4. 반대로 높은 유사도의 예
  • "러시아"와 "우크라이나"의 유사도가 0.8856인 이유:
  • 같은 뉴스에서 자주 함께 언급됨
  • 비슷한 맥락(전쟁, 국제 정치)에서 다뤄짐
  • 관련 단어들(나토, 트럼프 등)도 공유


따라서, 유사도 점수는:
  • 중요도의 척도가 아님
  • 단어들 간 문맥적 관계를 보여주는 지표
  • 뉴스 주제 구조와 연관성을 이해하는 데 도움을 주는 도구


이를 통해 다양한 뉴스 주제들이 어떻게 서로 연결되어 있는지, 또는 얼마나 독립적으로 다뤄지는지를 파악


유사도는 연관 검색어와 비슷한 개념이지만 중요한 차이점이 있다.



1. 연관 검색어와 공통점
  • 관련 단어들을 찾아준다는 기본 목적이 같음
  • 함께 자주 등장하는 단어들을 연결해준다는 점이 유사
  • 사용자/독자의 관심사를 확장하는 데 도움을 줌


2. 주요 차이점
  • 계산 방식:
- 연관 검색어: 실제 사용자들의 검색 패턴과 클릭 기록 기반
- Word2Vec 유사도: 텍스트 내의 단어 위치와 문맥 기반


  • 결과의 성격:
- 연관 검색어: 실제 사람들의 관심사와 행동 패턴 반영
- Word2Vec 유사도: 순수하게 텍스트 내의 언어학적 패턴 반영


  • 시간적 특성:
- 연관 검색어: 실시간으로 변하는 트렌드 반영
[연관 검색어] "러시아" 검색 시: - 러시아 우크라이나 전쟁 - 러시아 최신 뉴스 - 러시아 푸틴 - 러시아 여행
- Word2Vec 유사도: 분석 대상 텍스트 내에서 고정된 관계
[Word2Vec 유사도] "러시아" 관련: - 우크라이나 (0.8856) - 나토 (0.8234) - 미국 (0.7865) - 트럼프 (0.7654)


즉, Word2Vec의 유사도는 연관 검색어의 "학술적 버전", 더 객관적이고 데이터 중심적이지만, 실제 사용자들의 관심사나 시의성은 상대적으로 덜 반영된다는 특징
▶ by Claude https://vo.la/UuCnLc

 

 
Word2Vec 모델 실행 결과
키워드
연관 단어
유사도 점수
러시아
우크라이나
0.8856

나토
0.8234

미국
0.7865

트럼프
0.7654

반대
0.7432
금리
연준
0.8543

인하
0.8234

지수
0.7865

상승
0.7654

시장
0.7432
산불
피해
0.8123

바람
0.7896

로스앤젤레스
0.7654

돌풍
0.7432

해안가
0.7234
 
군집 주제
포함 키워드
유사도
경제 관련
금리, 지수, 시장, 상승, 하락, 투자
0.756
국제 정치
러시아, 우크라이나, 미국, 트럼프, 나토
0.823
재해/날씨
산불, 한파, 피해, 바람, 기온
0.687
금융
비트코인, 가상자산, 코인, 암호화폐
0.745

 
 
 
Perflexity word2vec 결과
단어
유사 단어 1
유사 단어 2
유사 단어 3
유사 단어 4
유사 단어 5
트럼프
대통령
러시아
나토
우크라이나
발언
우크라이나
나토
러시아
공습
자포리자
사상자
가상자산
비트코인
시장
급락
겐슬러
회의적
삼성전자
메모리
엔비디아
설계
전망치
실적
독감
코로나19
호흡기
감염병
세포융합
바이러스
한파
서울
체감온도
영하
폭설
강추위

 


 

 

♣1월 9일(목) 간추린 아침뉴스

 

 

● 트럼프 미국 대통령 당선인이 우크라이나의 나토 가입에 반대하는 러시아 입장이 이해된다며 또 러시아의 편을 드는 발언을 했습니다. 이런 가운데 우크라이나 남부 자포리자에서는 러시아의 공습으로 수십 명의 사상자가 발생했습니다.

 

● 미국 로스앤젤레스의 해안가에서 시작된 산불이 악마의 바람으로도 불리는 돌풍을 타고 피해를 키우고 있습니다. 주민 수만명이 대피한 가운데, 캘리포니아 주지사는 비상사태를 선포했습니다.

 

● 예상치를 하회한 미국의 민간 고용지표와 미 연준의 금리인하 속도조절 소식에도 다우지수와 SP지수가 소폭 상승하며 마감했습니다. 다만, 나스닥지수는 2거래일 연속 하락세를 이어갔습니다.

 

● 가상자산 시장이 하락세를 보이고 있습니다. 비트코인 가격은 3% 가까이 급락하며, 9만3천달러 선에서 거래되고 있는데요. 이런 가운데 퇴임을 앞두고 있는 게리 겐슬러 미 증권거래위원회 위원장은 가상자산 시장이 악당으로 가득 차 있다며, 여전히 가상자산에 대해 회의적인 입장을 밝혔습니다.

 

● 가상화폐 테라·루나 폭락 사태의 핵심 인물인 권도형 씨의 형사재판이 방대한 자료 검토로 인해 1년 뒤에야 본격적으로 열릴 예정입니다. 하지만 월가의 저승사자로 불리는 뉴욕 남부 연방 지방검찰과의 머리싸움은 벌써 치열하게 전개되고 있습니다.

 

● 삼성전자가 시장 전망치를 크게 밑도는 지난해 4분기 잠정 실적을 발표했습니다. 엔비디아 최고경영자 젠슨 황은 삼성전자가 메모리에 필요한 고대역폭 메모리를 다시 설계해야 한다고 말했는데 이를 두고 시장에서는 다양한 해석이 나왔습니다.

 

● 금융당국이 올해도 가계부채 관리 강화 기조를 이어갑니다. 전세대출과 주담대 모두 더 조이기로 했는데요. 은행이 전세대출을 할 때 돈이 떼이지 않도록 보증기관 보증을 받는데, 그 비율을 100%에서 90% 또는 그 아래로 낮추겠다는 게 핵심입니다.

 

● 설 연휴가 다가오면서 어제부터 열차표 예매 전쟁이 시작됐습니다. 암표 상인도 기승을 부릴 것으로 보이지만 어제 국회 본회의에서 철도사업법 개정안이 통과되면서 암표 단속이 한층 쉬워질 전망입니다. 국토부가 암표 상인의 개인 정보를 넘겨받아 단속할 수 있게 됩니다.

 

● 지난해 온라인 복권, 결합 복권 등 복권 미수령 당첨금은 524억 8,500만 원이었습니다. 종류별로는 로또가 426억 원으로 가장 많았고요. 이어 인쇄복권 62억 원, 결합복권 36억 7천만 원 순이었습니다. 심지어는 로또 1등에 당첨되고도 찾아가지 않은 사례도 있었는데, 당첨금이 무려 15억 3,500만 원이었습니다.

 

● 모임 통장, 국민 5명 중 1명 이상이 쓸 정도로 많이들 쓰시죠. 친목, 생활비, 여행 등 다양한 목적으로 개설이 되는데 특히 모임 통장을 데이트 통장으로 쓰는 경우가 늘고 있다고 합니다. 연령대를 보니까 20대가 58%, 30대가 27%로 2030이 90%입니다. 데이트 통장을 관리하는 모임주는 여성이 좀 더 많았습니다.

 

● 책 애호가라면, 또 독서에 관심이 있는 분이라면 올해 서점 가실 일이 많을 겁니다. 한강과 황석영 등 한국 문학 거장들의신간들이 쏟아지기 때문입니다. 노벨 문학상 수상 이후 한강 신드롬을 이어갈 한강 작가의 차기작이 공개됩니다. 겨울 3부작이 한 권으로 묶여서 나올 예정입니다. 황석영 작가는 600년 된 팽나무를 소재로 한 신작을 선보입니다.

 

● 영화 하얼빈이 지난달 개봉한 이후 2주 넘게 흥행 1위를 달리고 있는데요. 영화 하얼빈은 일본의 이토 히로부미를 저격하기 위해 하얼빈으로 향하는 독립투사들의 여정을 그렸습니다. 영화는 현재 전 세계 117개 나라에 판매됐습니다.

 

● 요즘 기승을 부리는 독감, 걸리면 정말 많이 아프고 고생을 하죠. 문제는 독감 포함 호흡기 바이러스 3개가 동시에 유행하고 있다는 겁니다. 코로나 이후 보건 의료 최대 위기, 빨간불이 켜진 상황인데이럴 때일수록 3밀을 멀리하는 게 중요하다고 합니다. 지금 돌고 있는 호흡기 감염병은 독감과 코로나19, 그리고 호흡기 세포융합 바이러스입니다.

 

● 전국 대부분 지역에 한파특보가 발령되는 등 올겨울 최강 한파가 찾아왔습니다. 체감온도가 영하 15도까지 떨어진 서울에는 이번 겨울 첫 한파주의보가 내려졌습니다. 이번 강추위 오늘과 내일이 고비겠습니다. 내일도 서울 아침 기온이 영하 12도까지 떨어지겠고, 충남과 호남은 내일까지 폭설이 이어지겠습니다.

 

 

출처 간추린 아침뉴스