취미생활/데이터 사이언스

데이터 용어 정리

LUKE.YG.KIM 2021. 11. 28. 13:49

DIKW 피라미드 : Data Information Knowledge Wisdom Pyramid

DIKW 피라미드

데이터 베이스 : 일정한 구조에 따라서 편성된 데이터의 집합체

빅데이터 
관점에 따른 3가지 정의가 있음
1. Mckinsey 2011 - 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터 - 데이터 규모에 중점을 둔 정의
2. IDC 2011 -다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고, 데이터의 초고속 수집 발굴 분석을 지원하도록 고안된 차세대 기술 및 아키텍처 - 분석 비용 및 기술에 초점을 둔 정의
3. 가트너그룹 더그 래니의 3v - 규모 형태 속도 

데이터 사이언스가 필요한 이유는 - 좋은 제품에서 좋은 서비스로 변화되고 있기 때문


가용 데이터 available data

 

통계학(統計學, 영어: statistics)은 산술적 방법을 기초로 하여, 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야이다. 근대 과학으로서의 통계학은 19세기 중반 벨기에 케틀레가 독일의 "국상학(國狀學, Staatenkunde, 넓은 의미의 국가학)"과 영국의 "정치 산술(Political Arithmetic, 정치 사회에 대한 수량적 연구 방법)"을 자연과학의 "확률 이론"과 결합하여, 수립한 학문에서 발전되었다.

  • 데이터의 개수(count) : 데이터의 수
  • 평균(mean, average) 일반적으로 산술 평균을 의미 함.통계학에서 두 가지 서로 연관된 뜻이 있다.
  • 산술평균 (arithmetic mean)
    • 산술평균 수학 통계학에서 산술 평균(算術平均, arithmetic mean)은 주어진 수의 합을 수의 개수로 나눈 값이다.
    • 산술 평균은 수학 통계학 뿐 아니라, 경제학, 인류학, 역사학 등의 많은 분야에서 빈번하게 사용된다. 보통 일상생활에서 "평균"은 산술 평균을 의미한다.
  • 표본평균 (sample mean)-추가 이해가 필요.
    통계학에서 표본 평균(標本 平均, sample mean) 또는 '표본 평균과 표본 분산'(sample mean and sample covariance)은 표본 평균과 이에 대한 분산 값이다.

  • 기하평균 (geometric mean)- 추가 이해가 필요.
    n개의 양수 값을 모두 곱한 것의 n제곱근이다. 예를 들어 2와 8의 기하평균은 4이다. 3이 6으로 바뀌면 2배로 증가한 것이고, 6이 48로 바뀌면 8배로 증가한 것인데, 2와 8의 기하 평균인 4를 3에 두 번 곱하면 48이 된다.

 

  • 산포도 산포도(散布度 dispersion, scatter, spread)는 데이터가 얼마나 그리고 어떻게 퍼져있나를 나타내는 통계학 용어이다

    변산성을 보여주는 값으로는 범위, 사분위수 범위(interquartile range,IQR), 분산(variance,Var), 편차(deviation),표준 편차(SD), 절대 편차(AD) 등이 있다. 이와 비교되는 개념으로는 중심경향치(Central tendency)가 있다.
  • 표준 편차(standard deviation) 변량들의 거리
    통계집단의 분산의 정도 또는 자료의 산포도를 나타내는 수치로, 분산의 음이 아닌 제곱근 즉, 분산을 제곱근한 것으로 정의된다. 표준편차가 작을수록 평균값에서 변량들의 거리가 가깝다.[1] 통계학 확률에서 주로 확률의 분포, 확률변수 혹은 측정된 인구나 중복집합에 적용된다. 관례에 따라 모집단은 그리스문자로 표본은 영어 알파벳으로 표기하는데, 모집단의 표준편차는 {\displaystyle \sigma }(시그마)로, 표본의 표준편차는 {\displaystyle s}(에스)로 나타낸다.
  • 분산(variance)  또는 변량 그 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자이다.[1] 기댓값은 확률변수의 위치를 나타내고 분산은 그것이 얼마나 넓게 퍼져 있는지를 나타낸다. 분산은 표본 평균이나 분산의 제곱근 표준편차와 보다 밀접한 관련이 있다.( 평균값은 같지만 그 평균값을 구하는 데이터의 범위가 다를 수 있고 이를 얼마나 넓게 퍼져 있는 지 나타내는 것을 의미)

 

  • 최댓값, 최소값 - 극값 :해석학에서, 함수 극대점(極大點, 영어: local maximum point)은 주위의 모든 점의 함숫값 이상의 함숫값을 갖는 점이다. 극댓값(極大값, 영어: local maximum (value))은 극대점이 갖는 함숫값이다. 마찬가지로, 함수의 극소점(極小點, 영어: local minimum point)은 주위의 모든 점의 함숫값 이하의 함숫값을 갖는 점이며, 극솟값(極小값, 영어: local minimum (value))은 극소점이 갖는 함숫값이다. 극대점과 극소점을 통틀어 극점(極點, 영어: local extremum point)이라고 하며, 극댓값과 극솟값을 통틀어 극값(영어: local extremum (value))이라고 한다. 기하학적으로, 함수의 그래프는 극대점에서 위로 우뚝 솟아있으며, 극소점에서 아래로 움푹 꺼져있다.
  • 함수의 최대점(最大點, 영어: global maximum point)과 최소점(最小點, 영어: global minimum point)은 각각 정의역의 모든 점의 함숫값 이상의 함숫값을 갖는 점이다. 최댓값(最大값, 영어: global maximum (value))과 최솟값(最小값, 영어: global minimum (value))은 각각 최대점과 최소점이 갖는 함숫값이다. 최댓값과 최솟값은 극댓값과 극솟값보다 더 강한 개념이다. 즉, 최댓값은 항상 극댓값이며, 최솟값은 항상 극솟값이지만, 그 역은 성립하지 않는다.
  • 최댓값(maximum) 변량의 최대치
  • 최솟값(minimum) 변량의 최소치
  • 중앙값(median):또는 중위수(中位數)는 어떤 주어진 값들을 크기의 순서대로 정렬했을 때 가장 중앙에 위치하는 값을 의미한다. 예를 들어 1, 2, 100의 세 값이 있을 때, 2가 가장 중앙에 있기 때문에 2가 중앙값이다.중앙값(median)은 중심경향치(center tendency)의 하나로 전체 데이터 중 가운데에 있는 수치 값이다. 직원이 100명인 회사에서 직원들 연봉 평균은 5천만원인데 사장의 연봉이 100억인 경우, 회사 전체의 연봉 평균은 1억 4851만 원이다. 이처럼 극단적인 값이 있다면 중앙값이 평균값보다 유용하다.
    값이 짝수개일 때에는 중앙값이 유일하지 않고 두 개가 될 수도 있다. 이 경우 그 두 값의 평균을 취한다. 예를 들어 1, 10, 90, 200 네 수의 중앙값은 10과 90의 평균인 50이 된다.[1]
  • 사분위수(quartile) : 데이터를 4등분 한 것이다. 통계의 변량을 도수 분포로 정리하였을 때 적은 것으로부터 1/4, 1/2, 3/4 자리의 변량값이다. 임의의 확률변수 축에서 확률분포를 4등분하는 값의 조합.임의의 확률변수 축에서 확률분포를 4등분하는 값의 조합이다.
    박스플롯(박스그래프)에 사용

    https://ko.khanacademy.org/math/statistics-probability/summarizing-quantitative-data/interquartile-range-iqr/a/interquartile-range-review
기술통계 : 수집한 데이터를  요약 묘사 설명 하는 통계 기법