레이블이 bigquery ml인 게시물을 표시합니다. 모든 게시물 표시
레이블이 bigquery ml인 게시물을 표시합니다. 모든 게시물 표시

2018년 11월 15일 목요일

[2018-11-15] Today's google News : VM웨어 "IT와 현업을 모두 충족하는 클라우드"

Today’s Google News with Megazone

 


VM웨어 "IT와 현업을 모두 충족하는 클라우드"


“VM웨어는 하이브리드 클라우드와 멀티 클라우드를 바라는 IT부서와
현업부서의 모든 수요를 충족한다.”



구글 클라우드가 머신러닝 알고리즘을 설계, 실행 및 추적하는데
활용할 수 있는 2종의 도구를 새롭게 출시했다.

구글의 74분 서비스장애, 나이지리아 ISP의 오류로 밝혀져

구글이 인터넷 트래픽 경로 설정 오류로 12일 오후(현지시간 약
1시간20분 가량 일부 서비스 접속 장애를 겪은 원인은 나이지리아의
인터넷 서비스 회사의 실수로 드러났다.


개발자가 지속적인 IT서비스 구현으로 가고 있고 고객이 앱에서
일관된 서비스를 기대하면서 애플리케이션 성능 관리 소프트웨어가
중요해졌다. 이러한 핵심 애플리케이션 성능 관리(APM) 툴을 통해
개발자는 성능 문제를 발견하고 해결할 수 있도록 앱의 성능을 모니터링하고
추적할 수 있다. 오늘날의 APM 툴은 자동화 영역으로 나아가 머신러닝을
사용해 중요한 문제를 확인하고 심지어 관리자에게 경고 메시지를 주기
전에 문제를 찾아내 해결해 주기도 한다.


아마존웹서비스(AWS), 마이크로소프트, 구글클라우드 등 3대 퍼블릭
클라우드 서비스업체가 모두 사물인터넷(IoT) 플랫폼을 갖추고
본격적인 경쟁에 돌입했다.


검색 및 인공지능 기반 분석 분야를 선도하고 있는 소트스팟(ThoughtSpot)이
구글 클라우드(Google Cloud)와 제휴해 기업 대상의 다중 클라우드
분석 서비스를 제공한다고 13일 발표했다.










2018년 10월 31일 수요일

[2018-10-31] Today's Google News : 2018 구글 클라우드 서밋 서울 기조연설

Today’s Google News with Megazone



레드햇 삼킨 IBM, 클라우드 3강 노린다


레드햇을 IBM이 340억달러에 인수하기로 했다. IBM은 클라우드 사업부
중 하나로 레드햇을 배치할 예정이다. 레드햇과 IBM 모두 엔터프라이즈의
하이브리드 클라우드에 큰 기대를 드러냈다.

2018 구글 클라우드 서밋 서울 기조연설


구글(Google)은 10월 25일 서울 강남구 코엑스에서 구글 클라우드의 최신
업데이트와 향후의 방향을 공유하는 ‘구글 클라우드 서밋
서울(Google Cloud Summit Seoul)’을 개최했다. ‘구글 클라우드 서밋’은 전
세계 주요 도시에서 구글 클라우드 최신 업데이트를 개발자 및 사용자와
공유하고자 개최되는 행사로, 서울에서는 올해 처음으로 개최되었다.


'클라우드 로보틱스(cloud robotics)'라는 용어는 2010년 당시 구글에서
근무한 제임스 커프너(James Kuffner)에 의해 처음 등장했다. 구글은
그 이후 클라우드 로보틱스 분야에서 다양한 노력을 해왔는데 드디어 그
결과물을 선보인다. 개발자들을 위한 구글 클라우드 로보틱스
플랫폼(Google Cloud Robotics Platform)이 2019년 출시를 앞두고 있다.



“구글 클라우드 IoT 플랫폼은 인텔리전스 일상화, 서버리스 확장성,
보안, 파트너 생태계 등을 차별점으로 갖는다. 특히 하드웨어 기반의
인공지능(AI)을 IoT 디바이스에서 실행하고, 데이터가 채집되는 디바이스,
그를 선별하는 엣지, 클라우드에 이르기까지 프로토콜 전반에서 강력한
보안을 제공한다.”



SAP는 지난 23일 스페인에서 개막한 ‘SAP 테크에드(SAP TechEd)’에서
클라우드, 머신러닝 및 애널리틱스 영역의 혁신을 대거 공개했다. 이번에
공개된 SAP 고객사 및 파트너사가 인텔리전트 엔터프라이즈로 발돋움하고
경쟁력을 제고할 수 있도록 초점이 맞춰졌다.



최근 아마존과 마이크로소프트, 구글 등 클라우드 업체 빅 3가
일제히 실적을 발표했다. AWS(Amazon Web Services)와 마이크로소프트
에저가 인상적인 결과를 내놓았고 구글은 구글 클라우드 플랫폼 사업
현황에 대해 크게 강조하지 않고 있다. AWS의 경우 클라우드 매출이 46%
성장한 270억 달러를 기록했다. 마이크로소프트는 76% 늘어난 77억 달러다.
기업을 대상으로 한 하이브리드 클라우드 판매가 성장을 견인했다.
그러나 이러한 놀라운 성장의 핵심 동력은 따로 있다. 바로 데이터베이스다.









2018년 10월 10일 수요일

[2018-10-10] Today's Google News : “구글플러스 사용자는 내년 8월까지 데이터 옮겨 두세요”

Today’s Google News with Megazone



“구글플러스 사용자는 내년 8월까지 데이터 옮겨 두세요”


페이스북에 이어 구글에서도 이용자 개인정보 유출 논란이 불거졌다. 구글이 사회관계망서비스(SNS) ‘구글플러스(G+)’ 이용자의 개인정보 유출 가능성을 인지하고도, 해당 사실을 이용자들에게 알리지 않기로 결정한 일이 언론 보도로 뒤늦게 드러나기 때문이다.




크롬북(Chromebook)을 기억하는가? 대형 작업을 위해 대형 운영체제를 사용할 필요 없이 인터넷 액세스만 되는 가벼운 것으로도 충분하다는 것을 입증하여 마이크로소프트의 시장 점유율을 빼앗았어야 하는 작고 저렴한 노트북이다. 소프트웨어 1개보다 저렴한 가격으로 구매할 수 있는 장치이다. 마이크로소프트 오피스와 기타 대형 클라이언트 기반 소프트웨어 없이 무료 구글 문서(Google Docs)만으로도 충분하다는 것을 증명할 하드웨어였다.


LG전자 하반기 전략 스마트폰인 ‘V40 씽큐’가 국내보다 미국에서 먼저 출시될 예정이다.

10년간 韓데이터 '싹쓸이'…데이터주권 '찬탈'

구글은 지난 10년간 국내에서 개인정보와 각종 데이터를 '싹쓸이'하고 있다. 서버도 해외에 있는 탓에 그동안 국내에서 수집한 정
보를 구글이 어떻게 활용하고 있는지 전혀 알 수 없다. 구글은 이제 축적한 데이터를 기반으로 인공지능(AI) 등으로 서비스를 고도화하고 있어, 토종기업들은 그야말로 눈을 가리고 구글과 싸우는 꼴이 됐다.

박정수의 일자리와 4차 산업혁명 이야기


스마트 시티(smart city), 스마트 팩토리(smart factory), 스마트 공급망관리(smart supply chain management), 스마트 소매점관리(smart retailer management), 등 전 세계는 새로운 산업혁명 패러다임에 적응하기 위해 디지털 전환(digital transformation)을 준비하고 있다.






2018년 9월 27일 목요일

[2018-09-27] Today's Google News : 구글, 일본에서 AI 이니셔티브 런칭

Today’s Google News with Megazone






구글이 일본에서 인공지능(AI) 관련 지원 프로그램을 강화하고 있다.





데이터 활용 규제를 완화해달라는 정보기술(IT) 산업계의 요구가 거세지만
공공 클라우드 시장과 관련해서는 오히려 규제 완화를 걱정하는 목소리가 높다.
클라우드 컴퓨팅 시장의 글로벌 1위 사업자인 아마존을 비롯해 마이크로소프트,
구글 등 미국계 기업들의 국내 시장 잠식 가능성 때문이다.







2018년 8월 27일 월요일

[2018-08-27] Today's Google News : 인공지능 관심 있다면 알아두어야 할 기술 5

Today’s Google News with Megazone




신 러닝(ML)과 인공지능(AI)은 IT 분야에서 새롭게 떠오르고 있는 경력 코스로,
현재 기업들은 이 분야의 전문가를 먼저 확보하기 위해 애쓰고 있다. 그러나
아직 시장에는 머신 러닝과 인공지능에 능통한 인재가 충분치 않다.


FAANG(페이스북·애플·아마존·넷플릭스·구글) →
MAGA(마이크로소프트·애플·구글·아마존)?


클라우드 하드웨어 보안 모듈


클라우드 하드웨어보안모듈(HSM)은 클라우드 기반 HSM이다. 기본
역할은 암호화 키 생성·저장·처리 등이다. 네트워크 연결 상태에서
부하 처리에 무리가 없어야 하며, 유연한 확장성을 보장해야 한다.
전용 하드웨어가 전담하기 때문에 소프트웨어 전용 암호 기술에
내재된 보안 취약점을 해결할 수 있다.


클라우드로 인해 혼잡해진 네트워크, IT의 적극적 역할 필요하다

기업이 IT 인프라와 서비스의 점점 더 많은 부분을 클라우드로 이전하면서 IT
부서는 이런 혼란을 정리하는 일을 떠맡게 됐다. 정작 IT는 이런 상황을 만드는 데
관여한 적이 없다.






2018년 8월 20일 월요일

[GCP] Big Query ML 이용해 보기 (1부)



이번 포스트에서는 Binary logistics Regressor 이용한 Classification Model BigQuery ML 이용하여 만들어 보고자 한다

앞서 이야기한대로 BigQuery ML Linear Regression(선형 회귀), Binary logistic regression(이진 로지스틱 회귀) 모델을 생성   있다



Linear Regressor 수치를 예측 하고자  , Binary logistics regression 분류 예측을 하고자 할때 사용한다

이번 Post Google Merchandise Store 구매 자료를 토대로 방문자의 구매 확률에 대해 예측 하는 모델을 생성 하고실제 생성된 모델을 기반으로 실제 구매 여부  모델 평가(Model Evaluation)까지 해볼 것이다



1. 데이터 탐색 및 데이터 이해하기
 우선 Machine Learning 위해서는 데이터에 대한 이해  탐색그리고예측을 위해 필요한 데이터의 특성은 무엇인가에 대한 이해가 선행 되어야 한다우선 데이터의 이해를 위해 전체 방문자 대비 구매자의 비율을 구하는 쿼리를 수행 해보도록 한다


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
#standardSQL
WITH visitors AS(
SELECT
COUNT(DISTINCT fullVisitorId) AS total_visitors
FROM `data-to-insights.ecommerce.web_analytics`
),
purchasers AS(
SELECT
COUNT(DISTINCT fullVisitorId) AS total_purchasers
FROM `data-to-insights.ecommerce.web_analytics`
WHERE totals.transactions IS NOT NULL
)
SELECT
  total_visitors,
  total_purchasers,
  total_purchasers / total_visitors AS conversion_rate
FROM visitors, purchasers
cs





`data-to-insights.ecommerce.web_analytics` 는 BigQuery ML을 Test 하기 위해 Merchandise Store의 데이터를 공개한 것이며, 위의 데이터는 전체 방문자 대비 실제 구매자를 구하는 데이터이다. 위의 with절의 visitor는 방문자의 ID를 Count 하는 데이터이고, purchasers는 전체 데이터중 transaction Flag가 있는 경우를 거래가 이루어진 것으로 보고, Count 한 데이터이다. 



[그림1. 방문자 대비 구매자비율]


전체 방문자 수는 741,721명이며(이는 전체 방문 횟수가 아닌 전체 방문자의 수이다.) 이 방문자들 중 실제 구매 한 사람의 수는 20015명이다. 즉 (20,015/741,721)*100 = 2.69%의 방문자가 Login 후 구매를 진행 하는 것을 알 수 있다. 

두번째로는 매출과 수익에 대해 상위 5개를 구하는 Query이다. 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
#standardSQL
Select prod_name
  , prod_cat_name
  , Format("%'d",CAST(units_sold AS int64))   as unit_sold
  , Format("%'.2f",CAST(revenue AS float64))  as revenue
  From (
        SELECT
          p.v2ProductName prod_name,
          p.v2ProductCategory prod_cat_name,
          SUM(p.productQuantity) AS units_sold,
          ROUND(SUM(p.localProductRevenue/1000000),2) AS revenue
        FROM `data-to-insights.ecommerce.web_analytics`,
        UNNEST(hits) AS h,
        UNNEST(h.product) AS p
        GROUP BY 12
        ORDER BY revenue DESC
        LIMIT 5
);
cs



[그림 2. 상위 5개의 매출 및 수량]


해당 쿼리는 전체 매출 중 가장 많이 팔린 상품 명과 수량을 구하는 쿼리이며, 상위 5개를 보여주는 쿼리이다.이때, From 절의 Inline View 쿼리 중 UNNEST(hits), UNNEST(h.product)를 볼 수 있는데, 이는 해당 Table의 Denormalize 된 테이블의 Reapeat Column을 사용하는 것이고, Target Table의 Dataset의 1개의 Row에 대응되는 Repeat 컬럼에 대해 배열로 나열 하여, 연산 하는데 사용하려는 것이다. 다시 말해 Unnest Keyword는 Denormalize 된 Table의 Row에 대해 하나의 배열 타입으로 바꿔서 하나의 테이블로 인식 하는 역할을 해주는 것이다. 즉, Query 상에서 Table의 Row에 대해 1:N의 형태로 풀어 주는 역할을 한다. 


2. 예측하고자 하는 목표 확인

앞서 탐색한 데이터를 기반으로 Machine Learning Model을 통해 확인 할 수 있는 것은 새로운 방문자가 향후에 구매 할 가능성이 있는 가를 확인 할 수 있다. 이는 주요 타켓 고객을 확인 함으로써, 구매 할 확률이 높은 고객에 대해 마케팅이 가능 해진다. 

 우리는 앞서 첫 번째 쿼리를 통해 방문자 대비 방문자의 구매비율을 알 수 있고, 두번째 쿼리를 통해 가장 많이 판매 된 상품을 알아 보았다. 해당 DataSet에서 유입 Channel이 확인이 되고, 해당 사용자가 어떤 유입 경로를 통해 구매자에 대해 유입 및 구매 여부를 알 수 있었다. 

해당 DataSet이 만들어 지는데 수집 경로가 되는 GA(Google Analytics)는 E-Commerce에서 사용자의 방문에 대한 특성 항목 및 측정 값을 수집한다. 우리는 유입되는 데이터 중에서 알아 봐야 할 부분은 사용자가 사이트에서 방문 후 얼마 만큼의 시간을 보냈는가와, 사용자가 바로 떠났는가에 대해 중점적으로 알아 볼 필요가 있다. 여기서는 totals.bounces [방문객이 거래를 일으키지 않고, 사이트를 바로 떠났는가에 대한 여부. 데이터는 (1 Or Null)로 표시], 그리고 totals.timeOnSite [방문객이 머문 시간 초 단위]로 확인 할 수 있다. 

두가지의 컬럼 만을 이용 했을 시 정확한 Machine Learning 모델을 만들 수 있을지는 아직은 알 수 없다. 하지만, 두가지 데이터로 학습을 했을 때도 정확한 모델을 가질 수 있을지는 나중에 확인 해볼 수 있다. 아래의 쿼리를 통해 데이터를 검색 해보도록 하자. 

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
#standardSQL
SELECT
  * EXCEPT(fullVisitorId)
FROM
  (SELECT
    fullVisitorId,
    IFNULL(totals.bounces, 0) AS bounces,
    IFNULL(totals.timeOnSite, 0) AS time_on_site
  FROM
    `data-to-insights.ecommerce.web_analytics`
  WHERE
    totals.newVisits = 1)
  JOIN
  (SELECT
    fullvisitorid,
    IF(COUNTIF(totals.transactions > 0 AND totals.newVisits IS NULL> 010
        AS will_buy_on_return_visit
  FROM
      `data-to-insights.ecommerce.web_analytics`
  GROUP BY fullvisitorid)
  USING (fullVisitorId)
ORDER BY time_on_site DESC
LIMIT 10;
cs

[그림 3. 예측을 위한 Query 수행]


해당 쿼리 결과로 Model을 만들 것이다. 그렇다면 해당 쿼리에서 Feature(특성)은 무엇인가? 바로 bounces와 time_on_site이다. 그렇다면 정답인 Label은 무었인가? 바로 will_buy_on_return_visit. 즉 다시 돌아와서 구매 했는지 아닌지 여부이다. 우리는 방문자가 다시 돌아와서 구매를 진행 할 것인지 아닌지 여부를 Machine Learning을 통해 알아 보는 Model을 생성하여 예측 해볼 것이다. 

하지만, 해당 데이터를 통해 우리는 해당 데이터를 가지고 좋은 Machine Learning모델을 얻을 수 있을 것인가에 대해서는 아직 모른다. 그리고 쿼리를 검색 해보면 알겠지만 예측에 대한 Accurancy는 단 1건만이 존재 하므로 좋은 지표는 아닐지도 모른다. 

정말 좋은 Model이 생성이 될지 아닐지에 대해서는 다음 Post인 Model 생성에서 알아 보도록 하겠다. 

[출처 : http://warehousekeeper.tistory.com/8]