반응형

NLP-writing 12

[마무리] What's Next?

글또 8기 마무리 회고! 7월 중반입니다~~ 2023년 한 해의 거의 절반이 온 것 같네요. 뜻한 바 대로 잘 이루고 있으시면 좋을 것 같습니다🙏🏻 글또는 어떻게 알게 되었는지? .... 매번 뭘 만들 때마다 구 박사님(Google)을 매번 찾아뵙게 됩니다. 그런데 구 박사님이 제시한 맨 앞 상단 검색창은 주로 티스토리였고.., 개발 블로그를 주로 읽다보니 알게 되었습니다. 글또 활동을 한 이유? - 다른 개발자 분들은 어떻게 사시나...👩‍💻🧑‍💻 - 영감을 받고 나도 잘해야지...👽 이 2가지 이유입니다. 너무 가깝지도 너무 멀지도 않은 적당한 거리를 유지하면 좋지 않을까 싶어서 활동을 하게 되었습니다. Computer Language를 다루는 공통점이 있으니 대화는 잘 통할 거라고 생각했습니다. 그..

NLP-writing 2023.07.16

chatbot 만들기 실패 - google spreadsheet 연결하는 법

chatbot과 관련해서 쓰려고 이것저것 만들어보다가 완성을 못해서 오늘은 실패 기록기... 발화자의 의도 분류 모델 만드는 데 시간쓰기 보단 google spreadsheet를 데이터베이스 대용으로 써보려고 하는 뻘짓이 더 많았습니다. mysql, sqlite3, postsql 등 쓰면 될텐데 굳이 spreadsheet를 연동해서 써보는 걸 테스트 해보고 싶었습니다... 챗봇이란 chatbot은 chatter + robot 의 합성어 입니다. 사람과 대화를 나누는데, 음성이나 텍스트 형태로 대화를 나누는 것을 뜻한다고 합니다. 그런데 최근엔 가상인간 이미지로 화면에 띄워져 있고, 집주인이 집에 들어오는 거 보고 서로 안부 대화를 나누는 시연 장면을 본 적이 있었는데, 요약하면 사람과 대화를 나누는 로봇..

NLP-writing 2023.07.02

BERT와 OpenAI GPT 란

* 잘못 이해한 내용이 있을 수 있습니다. 오늘은 BERT: Pre-trainining of Deep Bidirectional Transformers for Language Understanding 이라는 2019년도 5월에 발표된 논문을 읽어보고, BERT에 대해서 간략하게 작성했습니다. Google의 Bard와 OpenAI GPT 구글 Bard가 출시되었지만, chatGPT 만큼 핫하지 않은 것 같습니다. 구글이 앞서가고 있고 이런 저런 오픈 소스를 많이 풀고 있었는데 어느 순간 분위기가 바뀌었습니다. 재주는 google이 넘고 MS가 주가를 더 가져갔.... (광고주님 화이팅) 구글 Bard와 chatGPT의 차이에 대해서 살펴보려면, 일단 BERT의 개념에 대해서 살펴볼 필요가 있습니다. 간단하게..

NLP-writing 2023.06.18

텍스트 유사도-벡터 유사도

서론 ChatGPT는 일상 생활에 들어와서 없으면 안 될 존재가 되셨습니다. 저의 사수 같은 chatGPT....😂 가끔 사용하는 언어가 바뀔 일이 있어도 gpt 분이 계시기 때문에 괜찮습니다. 생산성과 효율성이 확실히 빨라졌다고 느낍니다. chatGPT를 사용해서 텍스트 요약이나 키워드 추출, 표 설명, 텍스트 생성 등을 하는 경우도 있습니다. GPT-4를 사용하고 있는데 플러그인을 잘 활용하면 문서 분류도 자동으로 해줍니다. 하지만 외부로 알려지면 안되는 개인정보나 중요한 정보의 경우엔 프롬프트를 사용하는 것이 금지되어 있죠. 최근엔 문서 분류와 관련해서 현업에서 활용할 것인지 고민하고 있습니다. 텍스트 유사도은 이런 문서 분류, 정보 검색, 기계 번역 등의 자연어 처리 분야에서 중요한 개념입니다. ..

NLP-writing 2023.06.04

텍스트 분류

삶을 살다가 이런 저런 문제들에서 공통점을 발견할 때가 있습니다. 매번 다르게 문제를 해결하는 것도 좋지만, 에너지와 시간을 절약하기 위해서 공통된 문제를 특정 값으로 처리하는 자동화 시스템을 만드는 과정도 있습니다. ML, AI... 머신러닝 분야에서 자주 언급되는 것 중 하나가 분류 과제입니다. 텍스트 분류 활용 텍스트 분류 과제는 여러 곳에서 활용되는데, 민원 분류 보이스피싱 분류 혐오 발언 분류 채용 및 사내 인사 평가 분류 스팸 메일 감성 분석 의도 분석 등과 같은 실무에서 활용할 일이 많은 과제 중 하나라고 생각합니다. 지도 학습, 비지도 학습 있지만,,, 대체로 지도 학습으로 많이 활용하지 않을까 싶습니다. 텍스트 분류에서 분류해야 할 범주가 2가지이면 Binary Classification..

NLP-writing 2023.05.21

한국어 텍스트 데이터 전처리

비정형 데이터 중 가장 많이 언급되는 것이 텍스트 데이터입니다. 일반적으로 전처리 코드는 영어를 중심으로 되어 있어서, 한글만을 위한 전처리 도구는 조금 공수를 들여야 하는 경우가 많습니다. 오픈 소스 라이브러리 자료들도 많이 올라와 있지만, 영어보단 활성화되진 않았습니다. 한국어는 영어처럼 띄어쓰기를 기준으로 관사와 명사, 형용사를 분리할 수 없는 독특한 구조를 가진 글자라서 처리할 때 좀 더 까다롭지 않을까란 생각을 합니다 한국어 전처리는 다음과 같은 과정들을 거친다고 생각합니다. 1. 텍스트 데이터 수집 2. 텍스트 cleaning 과정 - 필요없는 텍스트 제거 -불필요한 html 태그 제외 - 문장부호 제거 - 맞춤법 체크 - 띄어쓰기 - 반복되는 문자 정규화 3. 불용어 제거 4. 품사 Tagg..

NLP-writing 2023.05.07

미적분 - 경사 하강법(gradient descent)

호다닥 작성하겠습니다. 경사하강법 gradient descent 경사하강법은 인공지능에서 많이 언급되는 단어입니다. ML, AL 책에서 정말 많이 본 개념이 경사하강법 gradient descent 이었습니다. 영어 단어로 gradient 는 기울기, 경사, 변화나 증감을 의미하고, descent는 하강, 내려오다, 내려가다, 내리막이 되다 란 의미를 가진 단어입니다. gradient descent는 내려오는 기울기의 변화 란 뜻이 되면서 미분의 개념이 연결됩니다. 미분 공식들은 현재 상태에서 앞으로 어떻게 변화할지를 측정하니까요. 인공신경망에서는 최적의 파라미터 값을 찾을 때 많이 사용됩니다. 편미분 partial derivate AL에서의 미적분은 일반적인 미적분과는 다르게 다변량 미적분이 필요합니다..

NLP-writing 2023.04.27

Linear Algebra 선형대수학 with NLP

Linear Algebra는 ML, AL 을 할 때 기초가 되는 학문입니다. 정말 방대한 분량이라서 아주아주아주 소량만 슬쩍 소개하는 걸로 포스팅합니다. 선형대수학을 도대체 왜 쓰는 걸까? 일단, 사람이 세상을 바라보는 것과 현재 셀프 진화하고 있는 컴퓨터가 데이터를 이해하는 것은 다릅니다. 사람이 화면에 떠다니는 이미지, 동영상, 음악 을 볼 때는 감각적으로 이해합니다. 눈과 귀가 메인이 되는데, 컴퓨터는 트랜지스터가 켜지고 꺼지는 1과 0으로만 이해합니다. 사람이 보는 데이터를 컴퓨터에게 이해시키기 위해서는 숫자가 필요합니다. 그것도 상당히 많은 숫자들의 나열이 필요합니다. 숫자들의 나열 array를 벡터라고 할 수 있고, 이 벡터가 컴퓨터가 보는 세상입니다. 선형대수학은 벡터를 다루는 학문이고, ..

NLP-writing 2023.04.09

3. Probability - 베이지안Bayesian

목차 2023.02.25 - [NLP-writing] - 1. 자연어 처리란 무엇일까? 2023.03.20 - [NLP-writing] - 2 정규표현식을 익히자 Regular Expression with Python Intro 머신러닝과 인공지능 분야에서 베이스가 되는 확률 중 하나가 베이지안 확률입니다. 그 외의 로지스틱 회귀 분석, 정규 분포, 이항, 푸아송, Likelihood 추정 등이 모두 중요하지만, 오늘 주요하게 다루고 싶은 주제는 베이지안 확률입니다. 베이지안 확률이 왜 필요한지? 일단 why 를 중요하게 생각합니다. 무언가를 배울 때 이건 도대체 왜? 탄생을 했고, 도대체 왜 필요할까? 란 질문을 던지면 나름 대답을 해보면서 이해하기가 수월해집니다. 확률에는 일반적으로 추론(Infere..

NLP-writing 2023.03.26

2 정규표현식을 익히자 Regular Expression with Python

목차 1. NLP 란 (링크 : https://summerorange.tistory.com/entry/1-%EC%9E%90%EC%97%B0%EC%96%B4-%EC%B2%98%EB%A6%AC%EB%9E%80-%EB%AC%B4%EC%97%87%EC%9D%BC%EA%B9%8C) 2. 정규표현식을 익히자 3. 확률 4. 선형대수 5. 미적분 6. 텍스트 전처리 7. 분류 8. 텍스트 유사도 9. Bert & Gpt 10. ChatBot 한줄평: Text처리에는 정규표현식이 쵝오👍 정규표현식이란? Python에서 원하는 텍스트만 추출할 때 꼭 써야 하는 게 정규표현식입니다. 파이썬 뿐만 아니라 JAVA, C, JavaScript, PHP, Rust, C++, 에도 지원합니다. 파이썬 이외에도 자주 썼던 경우는, ..

NLP-writing 2023.03.20

1. 자연어 처리란 무엇일까?

https://summerorange.tistory.com/entry/%EA%B8%80%EB%98%90-NLP-writing-%EC%9D%BC%EC%A0%95 [글또] NLP writing - 일정 2023년에는 좀 더 다양한 활동을 시도하고 싶어서, 글쓰는 개발자 라고 글또에 참여하게 되었습니다. 사실 처음 참여해서 아직 잘 모르지만... 일단 들어가서 활동해보고 난 뒤에 자세하게 쓸 수 summerorange.tistory.com (*제가 이해한 것 기준으로 작성했습니다. 잘못된 정보가 있을 수 있습니다.) 1. 자연어란? 자연어 처리란 무엇인지에 대해서 자연어 처리의 산물인 chatGPT에게 물어보았다. 일단 한국어와 영어 모두 질문을 동일하게 물어봤다. 한국어로 질문할 때 대답하는 것을 잘보면 영..

NLP-writing 2023.02.25

[글또] NLP writing - 일정

2023년에는 좀 더 다양한 활동을 시도하고 싶어서, 글쓰는 개발자 라고 글또에 참여하게 되었습니다. 사실 처음 참여해서 아직 잘 모르지만... 일단 들어가서 활동해보고 난 뒤에 자세하게 쓸 수 있을 것 같습니다. 현업에 계신 다른 개발자 분들과 소통할 수 있는 기회는 언제든 반갑고, 다양한 의견을 들을 수 있으면 정말 좋죠. 참여하면서 뭘 써야 할지 고민을 하다가 NLP 와 관련해서 주제를 잡아서 글을 써보기로 결심했습니다. 디테일한 일정은 다음과 같고 각 주제에 맞게 관련해서 글을 써보는 연습입니다. 개발자의 숙명이 일하면서 끊임없이 배워야 하는 건데, 거기에 글쓰기를 약간 더했습니다. ⭐️ 함께 글을 쓰자 라는 글또 모임에 뭔가 제가 줄 수 있는 부분을 고민하다보니. 응원입니다💪💪💪 초기엔 솔직히 ..

NLP-writing 2023.02.11
반응형