전체 글
-
[python]1. Objects_in_Python인공지능/부스트캠프 Ai Tech 2022. 1. 21. 18:16
In [1]: from IPython.core.display import display, HTML display(HTML("")) #창 맞추기위함 1-1. Python Object Oriented Programming¶객체 지향 프로그래밍(OOP)¶객체 : 실생활에서 일종의 물건, 속성(Attribute)와 행동(Action)을 가짐 속성은 변수(variable), 행동은 함수(method)로 표현됨 ex) 수강신청 프로그램 : 수강신청 관련 주체(교수,학생,관리자)의 행동(수강신청, 과목 입력) 과 데이터(수강과목, 강의 과목)들을 중심으로 프로그램 작성 후 연결 OOP는 설계도에 해당하는 클래스(class)와 실제 구현체인 인스턴스(instance, 또는 객체)로 나뉜다. 변수, Class, 함수명은..
-
[토크ON세미나/ 추천시스템 분석 입문하기] 2강 - 추천시스템의 이해인공지능/RecSys(추천시스템) 2021. 12. 23. 16:02
이 포스트는 토크ON세미나의 추천시스템 분석 입문하기(김현우 님)의 강의를 듣고 정리한 포스트입니다. 2. 컨텐츠 기반 모델 컨텐츠 기반 추천시스템은 사용자가 이전에 구매한 상품중에서 좋아하는 상품들과 유사한 상품들을 추천하는 방법이다. Represented Items : Items(상품 등)을 벡터 형태로 표현. 도메인에 따라 다른 방법으로 적용된다. Represented Items으로 벡터 형태로 변환해 벡터들간에 유사도를 계산하여 유사한 Items을 찾아낸다. 2-1. 유사도 함수 유사도를 측정하는 함수들은 다양하며, 상황마다 다르게 사용된다. 2-1-1. 유클리디안 유사도 가장 직관적인 유사도 함수, 벡터간의 좌표평면상의 거리를 측정하여 가까운 순으로 유사하다고 판단 장점 - 계산하기 쉬움, 벡터..
-
[K-MOOC/데이터로 배우는 통계학] 4-3. 개인정보 보호통계학 2021. 12. 21. 10:29
이 포스트는 K-MOOC의 데이터로 배우는 통계학(장원철 교수님)의 강의를 듣고 정리한 포스트입니다. 데이터로 배우는 통계학 4. 부분에서 전체를 추론하기 4-3. 개인정보 보호 국내 개인정보 관련 보호 법률 현황 데이터 3법(개인정보보호법, 정보통신망법, 신용정보법) 개정안을 통해 개인정보보호법에서 가명정보 소개 가명정보의 경우 개인동의 없이 통계작성, 연구, 공익적 기록 보존 목적으로 사용가능 개념 예 활용가능범위 개인정보 특정 개인에 관한 정보 한석규, 1964년 11월 3일생 2020년 5월 1일, 왓챠에서 시청 사전적이고 구체적인 동의 후에 활용가능 가명정보 추가 정보없이 특정 개인을 알아 볼 수 없게 처리한 정보 한XX, 1964년생 202년 5월 1일, 왓챠에서 시청 통계작성/연구/공익적 기..
-
[토크ON세미나/ 추천시스템 분석 입문하기] 1강 - 추천시스템의 이해인공지능/RecSys(추천시스템) 2021. 12. 16. 10:13
이 포스트는 토크ON세미나의 추천시스템 분석 입문하기(김현우 님)의 강의를 듣고 정리한 포스트입니다. 1. 추천 시스템의 이해 1-1. 추천시스템의 개요 정의 추천시스템은 사용자(user)에게 상품(item)을 제안하는 소프트웨어 도구이자 기술 목표 어떤 사용자에게 어떤 상품을 어떻게 추천할지에 대해 이해하는것 1-2. 추천시스템의 역사 Apriori 알고리즘(2005~2010) 연관상품추천 협업 필터링(collaborative filtering, 2010~2015) SVD, 넷플릭스 추천대회 Spark를 이용한 빅데이터(2013~2017) FP-Growth Matrix Factorization 딥러닝을 이용한 추천시스템(2015~2017) 협업필터링 + 딥러닝 Item2Vec, Doc2Vec Youtu..
-
[K-MOOC/데이터로 배우는 통계학] 4-2. 표본조사방법통계학 2021. 12. 13. 21:33
이 포스트는 K-MOOC의 데이터로 배우는 통계학(장원철 교수님)의 강의를 듣고 정리한 포스트입니다. 데이터로 배우는 통계학 4. 부분에서 전체를 추론하기 4-2. 표본조사방법 센서스(Census) 표본을 선택하는 대신 전체 모집단에 대해서 조사를 하는 경우 ex) 통계청에서 5년마다 실시하는 인구주택 총조사 센서스의 문제점 센서스에 잡히지 않는 사람이 있고, 이런 사람들은 특정 집단(불법체류자 등)에 속하는 경우가 많음 모집단은 계속 변하기 때문에 센서스 기간을 고려해 완벽하게 모집단의 모든 사람을 조사하는 것은 불가능하다. 센서스가 샘플링보다 복잡 할 수 있다. 표본 편의(Sampling Bias) 무응답 편의(Non-response Bias) : 임의로 뽑인 사람 중 일부만 대답하는 경우, 전체 모..
-
[K-MOOC/데이터로 배우는 통계학] 4-1. 모집단과 표본통계학 2021. 12. 13. 18:14
이 포스트는 K-MOOC의 데이터로 배우는 통계학(장원철 교수님)의 강의를 듣고 정리한 포스트입니다. 데이터로 배우는 통계학 4. 부분에서 전체를 추론하기 4-1. 모집단과 표본 ex) 영국인의 실제 성관계 상대 수는 몇명인가? 라는 질문에 대답을 하기 위해서는 아래와 같은 귀납적 추론의 4단계의 과정을 거친다. 각 단계를 거치기 위해서는 대표성을 가져야 한다. ※ 귀납적 추론 : 부분을 가지고 전체를 추론, 특수한 상황을 일반화 시키는 과정 1단계 데이터 - 설문조사 참가자들이 보고한 성관계 상대 수 2단계 표본 (Sample) - 설문조사 대상이 된 영국인의 실제 성관계 상대 수 3단계 연구모집단(Study Popluation) - 설문조사에 포함될 가능성이 있는 모든 사람들의 성관계 상대 수 4단계..
-
클래스 불균형인공지능/Data preprocessing 2021. 12. 10. 12:53
인공지능에서 분류(Classification)과제인 경우, 특히 다중 분류일 경우 많이 겪는 문제가 클래스 불균형(Class Imbalanced)이다. 이는 클래스(타겟)간의 비율이 맞지 않는 경우를 말한다. ex) 은행 거래 : 평소에는 큰 문제가 없지만 갑자기 생기는 금융 사기 거래 등 , 공장에서의 불량률 위와 같은 사례를 해결하기 위한 방법들을 비정상 탐지(Anomaly Detection)이라고 한다. 이를 해결하기 위한 방법론으로는 Under Sampling , Over Sampling 이 있다. 과소표집(Under Sampling) & 과대표집(Over Sampling) 과소표집은 다른 클래스에 비해 상대적으로 큰 클래스의 개수를 줄인다. 다만 균형은 맞게 되지만 전체적으로 학습할 데이터의 숫..