graylog는 중앙 집중식 로그 관리 시스템(LMS : log managemnet service)으로서 방대한 양의 로그 데이터를 집계, 구성 및 이해하는 수단을 제공 합니다.

 

기본적으로 graylog + 데이터 노드 + MongoDB로 구성 됩니다.

여기서 데이트 노드는 Elasticsearch 또는 OpenSearch중 선택해서 구성 가능 합니다.

 

이구성으로 페타바이트 규모의 로그 데이터를 심층적으로 분석할 수 있습니다.

 

기본적으로 아래와 같은 아키텍처로 구성 됩니다.

 

 

Senario

인터넷이안되는 폐쇠망 환경에서 VMware 인프라 오픈소스 모니터링 환경 구현

https://grafana.com/grafana/dashboards/8159-vmware-vsphere-overview/

 

Monitoring Architecture

Environment

OS : RockOS 9.2 (Blue Onyx)

Monitor: Grafana 10.0.2

DB : Influxdb2.7

Plugin : Telegraf 1.27.3

vCenter : 7.0.3

###사전 준비###

  • 설치파일 다운로드 및 업로드 (Grafana, InfluxDB, Telegraf)
  • OS 방화벽 (Firewalld 포트 오픈)

 

1. 설치파일 다운로드 및 업로드

1-1 Grafana rpm 파일 다운로드

https://grafana.com/grafana/download/10.0.2 접속 하여 설치 파일 다운로드

1-2 Influxdb rpm 파일 다운로드

https://docs.influxdata.com/influxdb/v2.7/install/?t=Linux 접속 하여 해당 링크에서 rpm 파일 다운로드

1-3 Telegraf rpm 파일 다운로드

https://github.com/influxdata/telegraf/releases 접속 하여 해당 링크에서 rpm 파일 다운로드

 

2. OS방화벽 포트 오픈 (Firewalld)

2-1 grafana 포트 오픈 (TCP:3000)

firewall-cmd --zone=public --permanent --add-port=3000/tcp

2-2 InfluxDB 포트 오픈 (TCP:8086)

firewall-cmd --zone=public --permanent --add-port=8086/tcp

2-3 Firewalld Reload

firewall-cmd --reload

2-4 --list-all 명령어를 이용하여 정상 확인

firewall-cmd --zone=public --list-all

 

 

vCenter 인증서에 대해 알아봅시다.

vCenter GUI 에서 인증서 관리 페이지를 보면 인증서를 확인 할 수 있습니다.

  • 시스템 SSL 인증서
  • VMware Certificate Authority 인증서
  • STS 서명 인증서
  • 신뢰할 수 있는 루트 인증서

하지만 VCSA에서 CLI로 확인하면 다음과 같이 더 많은 하위 인증서를 확인 할 수 있습니다.

for store in $(/usr/lib/vmware-vmafd/bin/vecs-cli store list | grep -v TRUSTED_ROOT_CRLS); do echo "[*] Store :" $store; /usr/lib/vmware-vmafd/bin/vecs-cli entry list --store $store --text | grep -ie "Alias" -ie "Not After";done;

  • Machine SSL CERT
  • TRUSTED ROOTS
  • Machine
  • vsphere-webclient
  • vpxd
  • vpxd-extension
  • hvc
  • data-encipherment : 게스트 OS 사용자 지정을 위해 VPXD 서비스에서 사용됩니다.
  • applmgmt_password
  • SMS
  • wcp

노란색 부분을 Solution User 인증서라고 합니다.

 

 

vSAN 성능 분석할 때 참고용 수치로 활용하시기 바랍니다.

스토리지레벨 성능 확인 시 백엔드 탭을 활용하면 됩니다.

 

하이퍼 바이저 유지보수 모드 후 60분뒤 데이터 리빌드가 일어나는데 해당 시간에 지연시간 및 미결 IO에 피크친 그래프가보여 놀라는 상황이 발생할 수 있습니다. 그러나 백그라운드 IO이며 VM레벨에서 영향 없음을 확인할 수 있습니다.

vSAN 백엔드 관점에서의 성능 대시보드
VM레벨에서 피크 구간 지연시간은 1.6밀리초 내외입니다. 성능저하를 체감할 수 없습니다. 정체 수치도 없습니다.

 

백앤드 데이터 수치를 하나하나 확인해 봅니다. 복구 쓰기 IOPS 가 발생했다는 것은 가상 오브젝트 리빌드가 발생했다는것을 의미합니다.

 

아래 수치 운영 시 참고 하세요 (호스트약 45대 1VSAN 클러스터 환경)

 

 

VSAN 클러스터 백앤드 IOPS

최대값 기준

읽기 IOPS : 183009

다시동기화 읽기 IOPS: 172808

쓰기 IOPS: 38596

복구 쓰기IOPS : 172438

 

 

VSAN 클러스터 백앤드 처리량

최대값기준

읽기 처리량: 10.66GB/초

다시동기화 읽기 처리량 : 10.55GB/초

쓰기 처리량  : 416.24MB/초

복구 쓰기 처리량 : 10.52GB 초

 

지연시간은 주의깊게 볼 필요가 있습니다. 복구 쓰기 지연시간이 발생하고 읽기 지연 시간이 과하게 발생하여 걱정을 하였지만 생각보다 VM단에 영향도는 없었습니다. 정상동작으로 추정 됩니다.

최대값 기준

읽기 지연 시간 : 47.541밀리초

다시 동기화 읽기 지연 시간: 1.621밀리초

쓰기 지연 시간 : 0.321

복구 쓰기 지연 시간 : 61.428 밀리초  

 

백엔드 성능에서 가장 중요한 정체 입니다. 해당수치가 발생한다면 주의하셔야합니다.

최대값 기준

정체 : 0

 

미결 IO

최대값기준

미결 IO : 1,570

어떤 애플리케이션을 ? -> pod

얼마나 ? -> ReplicaSet

어디에 ? -> Node, Namespace

어떤방식으로 배포? -> Deployment

어떻게 로드밸런싱 ? -> Service, Endpoints

'K8S > Arch' 카테고리의 다른 글

Container Orchestration  (0) 2022.04.06
Docker  (0) 2022.04.06
Monolithic vs Microservices vs Cloud Native  (0) 2022.04.06
about kubernetes Architecture (작성중)  (0) 2022.01.23

+ Recent posts