일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 수학손풀이
- N수
- 선형대수
- Linear algebra
- 손풀이
- 선형대수학
- 딥러닝
- 고3
- 미적분
- 확률과통계
- 수1
- reinforcement learning
- LLM
- 생성모델
- 미적
- 강화학습
- 핸즈온llm
- 수학공통
- 머신러닝
- 수학
- 고등수학
- HuggingFace
- 수2
- 임베딩
- 확통
- 생성형AI
- 공통
- 추천시스템
- ChatGPT
- 3월모의고사
- Today
- Total
목록2025/06 (6)
대치동명강사의 추천시스템

🎧 Word2Vec을 이용한 음악 추천 시스템 만들기— 재생목록 데이터를 바탕으로 비슷한 곡을 찾아보자!최근 몇 년간 자연어 처리(NLP) 기술이 다양한 분야에 확장되면서, 우리가 듣는 음악마저도 "언어처럼" 분석하고 추천할 수 있는 시대가 되었습니다. 이번 포스팅에서는 Word2Vec이라는 단어 임베딩 기법을 활용하여, 사람이 만든 음악 재생목록으로부터 비슷한 노래를 추천하는 시스템을 직접 구현해 보겠습니다.🎯 목표:음악을 단어, 재생목록을 문장처럼 보고Word2Vec 모델을 통해 노래 간 유사도를 학습한 뒤특정 노래와 유사한 노래들을 추천하는 것1️⃣ 준비: 패키지 설치 및 개념 정리먼저, gensim 라이브러리를 설치해야 합니다. 이 라이브러리는 Word2Vec 모델을 간편하게 사용할 수 있도록..
💡 언어 모델과 토크나이저는 왜 세트로 움직일까?언어 모델을 이해하는 핵심은 바로 토큰화(tokenization) 와 임베딩(embedding)입니다.토큰화는 텍스트를 모델이 다룰 수 있는 작은 단위(토큰)로 나누는 과정이고, 임베딩은 이 토큰들을 의미를 담은 숫자 벡터로 변환하는 과정입니다.🔗 왜 토크나이저를 바꾸면 모델도 다시 훈련해야 할까?언어 모델은 토크나이저가 만든 **고정된 어휘집(vocabulary)**에 맞춰 훈련됩니다.각 토큰은 모델 내에 임베딩 벡터로 표현되는데, 이는 [어휘 크기 × 임베딩 차원] 형태의 행렬입니다.이 임베딩 행렬은 모델이 학습 도중에 의미 있는 값으로 점점 최적화되며, 텍스트 내 패턴을 계산하고 예측하는 데 중요한 역할을 합니다.따라서 다른 토크나이저를 사용할 경..

🧠 LLM을 이해하기 위한 첫걸음: 토큰(Token)과 임베딩(Embedding)요즘 대세로 떠오른 생성형 AI 모델, 특히 GPT나 Claude, Gemini 같은 대형 언어 모델(LLM)을 살펴보다 보면 꼭 마주치게 되는 두 개념이 있습니다. 바로 **토큰(Token)과 **임베딩(Embedding)**입니다. 얼핏 보면 단순한 개념처럼 보일 수 있지만, 사실 이 두 가지는 LLM의 작동 원리를 이해하는 데 있어서 매우 중요한 핵심 개념입니다. 이 글에서는 LLM을 구성하는 핵심 개념 중 **토큰화(Tokenization)**와 **임베딩(Embedding)**에 대해 깊이 있게 설명하고, 실제 코드 예제와 함께 LLM이 텍스트를 처리하는 과정을 하나하나 짚어보려고 합니다. - 토크나이저가 언어 모..
🔧 transformers로 첫 번째 텍스트 생성하기 (with Phi-3-mini)💡 주의: 아래 코드를 실행하기 전 반드시 transformers의 버전을 4.48.0으로 맞춰야 합니다.!pip install transformers==4.48.0 ✅ 1. 어떤 모델을 사용할 것인가?LLM(Large Language Model)을 선택하는 일은 생각보다 중요합니다.이때 가장 편하게 모델을 검색하고 사용할 수 있는 플랫폼이 바로 Hugging Face Hub입니다.허깅페이스(Hugging Face)는 유명한 transformers 라이브러리를 만든 회사로, 이름처럼 트랜스포머 기반 모델을 중심으로 다양한 AI 리소스를 제공합니다.이 플랫폼에는 수백만 개의 모델이 등록되어 있으며,텍스트 생성은 물론, ..
1.4 LLM의 학습 패러다임전통적인 머신러닝은 분류와 같은 특정 작업을 위해서 학습을 진행함. 이에, 주로 정형 데이터를 통해 특정 작업을 수행하게 끔 모델을 훈련하는 하나의 단계를 가짐.이와 달리 LLM을 만드는 것은 일반적으로 적어도 두 단계로 구성됨.언어 모델링 : 첫 번째 단계는 사전 훈련(Pretraining)이라 부르며 대부분의 계산과 훈련 시간이 소요됨. 인터넷에서 수집한 대규모 텍스트 말뭉치에서 LLM을 학습시켜 모델이 문법, 맥락, 언어 패턴을 학습할 수 있게 함. 광범위한 이 훈련 단계는 특정 작업에 맞춰져 있지 않음. 이렇게 만들어진 모델을 주로 파운데이션 모델(혹은 베이스 모델) 이라고 부름.미세 튜닝(Fine-Tuning) : 두 번째 단계는 파인 튜닝 혹은 사후 훈련(Post-..
인공지능(Artificial Intelligence, AI)이란 음성 인식, 언어 번역, 시각 인식과 같이 인간 지능에 가까운 작업을 수행하는 컴퓨터 시스템.[인공 지능은] 지능적인 기계, 특히 지능적인 컴퓨터 프로그램을 만드는 과학과 공학입니다. 인공지능 분야는 컴퓨터를 활용해 인간 지능이 어떻게 작동하는지 이해하려고 연구합니다. 하지만 AI가 생물학적으로 관찰되는 방법에만 국한되지 않습니다. - 존 매카시, 2007언어 AI(Langua..