티스토리 뷰
[논문 리뷰] PSNet: A Style Transfer Network for Point Cloud Stylization on Geometry and Color
hyuna_engineer 2025. 1. 13. 16:01
Abstract
Point cloud에 대한 neural style transfer method를 제시했다. 일종의 stylization으로 point cloud 기반의 데이터의 feature vector를 의미하는 content representation과 Gram-based style representation을 조정해서 얻었다고 한다. 이것들은 pretrained된 PointNet-based classifcation network에서 얻은 것들임. Gram-based style representation은 뒤의 gram matrix 계산법처럼 채널 간의 위치, 상관관계를 익히기에 포인트 클라우드 데이터의 전역적 통계적 속성만을 학습한다. 즉, 포인트의 개수나 순서에 불변하다는 것이다. 더 풀어쓰자면, Gram matrix는 i의 순서를 고려하지 않고, 모든 i에 대해서 합산을 수행하는데, 포인트 순서가 바뀌더라도 계산 결과가 다르지 않음. 또한, 포인트 개수 N이 달라지더라도 gram matrix는 값들의 통계적 상관관계를 나타내므로, 입력 데이터가 더 크거나 작아도 본질적으로 같은 스타일 유지.
<배경 설명>
Point cloud 데이터는 일반적으로 순서 정의가 되지 않은 "비정형 데이터". So, style을 나타내는 gram matrix는 다음 두 가지 특성을 가져야 한다.
- 순서 불변성(Permutation Invariance) : Gram matrix는 각 포인트의 채널 값을 모두 합산. 그러므로 포인트 순서가 변경되어도 결과 동일
- Global 통계적 정보 : Gram matrix는 데이터의 global style을 요약하므
여기서 content representation은 포인트 간의 상대적 위치, 배치 등을 의미한다.
- 이미지 스타일 transfer에서는 예를 들어 입력 이미지가 고양이 사진이고, 원하는 output이 고흐 화풍의 고양이 사진이라고 하자. 고양이 사진을 CNN에 통과시켜 특정 중간 계층의 활성화 함수 통과한, 출력 F를 가져온다. 이 F는 고양이 사진의 경계선, 윤곽, 모양 정보를 가지고 있다, 이것이 Content representation이다.
- 포인트 클라우드에서는 데이터가 NxD 형태를 가지며, N은 포인트 수, D는 포인트 속성을 의미. Content Representation은 포인트 클라우드의 구조적 특성(ex. 포인트 간 거리, 상대적 위치, 배치)을 의미함. 예를 들어, 입력은 자동차의 포인트 클라우드, 목표는 색상 stylization이라고 하자. PointNet을 이용하여 자동차 포인트 클라우드 처리하고, 중간 레이어의 활성화 값을 content representation으로 추출. 이 값이 자동차의 전체적 구조를 의미한다.
정리 : 중간 레이어 feature map에 활성화 함수 씌운 feature map = content representation
Gram-based Style representation이란
Style transfer에서 흔히 사용하는 스타일 특정하는 방식으로 특징 간의 내적(inner product)을 계산하여 해당 레이어에서 특징의 상호작용 상관성을 나타낸다. 포인트 클라우드에서는 PointNet의 중간 레이어에서 추출된 feature map의 gram matrix 계산하여, 포인트 클라우드의 색상 분포, 패턴, 텍스쳐 나타내는 데 사용.
Gram matrix는 어떻게 계산하냐? 일단 이는 feature map 간의 상관성을 나타내는 대칭 행렬로, 주어진 데이터의 스타일 또는 분포적 특성 요약.
Feature map F의 각 채널을
c,d는 채널 인덱스, i, j는 공간적 인덱스(feature map 위치)
채널 간 내적은 어떻게 하느냐?
1) 각 채널을 1D 벡터로 펼친다. 예를 들어, 264x264 크기 채널을 벡터
2) 두 채널 간 내적 계산 - 두 채널 c와 d가 있을 때
c-번째 채널과 d-번째 채널 간의 전체 위치의 값들의 상관성
3) 모든 채널 간의 내적을 계산하여 CxC 크기의 Gram matrix 만든다.
'논문 리뷰' 카테고리의 다른 글
[논문 리뷰] An Image Is Worth 16x16 Words:Transformers For Image Recognition At Scale (0) | 2024.04.01 |
---|---|
[논문 리뷰] Are Transformers Effective for Time Series Forecasting? (0) | 2024.04.01 |
[논문 리뷰] TIME-LLM: TIME SERIES FORECASTINGBY REPROGRAMMING LARGE LANGUAGE MODELS (1) | 2024.03.31 |
[논문 리뷰] TS2Vec: Towards Universal Representation of Time Series (0) | 2024.03.25 |
[논문 리뷰] MASK R-CNN (0) | 2024.03.25 |