Loading...

Deep Learning Research Group

Decision Transformer Reinforcement Learning via Sequence Modeling

논문 출처 : https://arxiv.org/abs/2106.01345 코드 출처 : https://github.com/kzl/decision-transformer 이 논문이 쓰여지게 된 배경은 ViT의 출현( https://arxiv.org/abs/2010.11929 )과 관련이 있어 보인다. 위 Vision Transformer Architecture를 살펴보면 이미지를 고정된 크기의 Patch로 나누어 준 후 Position Embedding화하여 Sequential하게 Transformer의 인코더에 Input값으로 넣는다.입력값으로 들어간 이미지를 일반적인 Transformer Input 값과 동일하게 Data Transformation을 수행한 후 classification token을 더해준다. 이 정보를 […]

Read more

DIAYN (Diversity is All You Need)

Diversity is All You Need : Learning Skills without a Reward Function (https://arxiv.org/abs/1802.06070) 위 논문에서 바라보고자 하는 점은 똑똑한 사람들은 지시자의 지시가 없이도 스스로 다양한 시도들을 통하여 스스로 유용한 기술들을 학습한다는 일상의 일들을 강화학습에 적용해 보자는 의도를 가지고 작성되었다.이를 강화학습으로 풀어보자면 어떻게 하면 보상이 없이도 유용한 기술들을 스스로 배워서 학습할 수 있을까 이를 구현하기 위해서 […]

Read more

강화학습의 변천사

Markov Chain은 언어모델, 음성인식, 강화학습과 연관된 학습을 하다 보면 가장 근간이 된 사상이라고 생각이 든다. 그 이유는 바로 state와 transition probability란 것이 확률적 기반 학습을 진행할 때 가장 뿌리가 되는 부분이기 때문인 것 같다. Deterministic Policy와 Stochastic Policy이 모두 state에 대한 action을 기반을 설계되어 있고 이 action이라는 것은 state transition probability와 큰 연관성이 있다. state […]

Read more

LanGUAGE Model of Deep learning의 변천사

Part Of Speech(POS) Tagging에서 중요한 부분은 closed class categories와 open class categories에 대한 구분이다. 언어는 생명체와 비슷하게 진화한다. 진화하는 부분은 우리가 쉽게 사용하는 명사, 동사, 형용사, 부사라고 칭하는데 이를 바로 open class categories라고 부른다. 형태소 분석에서 가장 중요한 부분은 바로 class categories에 대한 Life Cycle이다. 입력받은 Part Of Speech(POS) Tagging한 값을 토대로 Sequence Labeling을 수행하여 […]

Read more

Improved Multiscale Vision Transformers for Classification and Detection

2021년 12월 2일 arXiv에 올라온 Facebook의 MViT Version 2인 Improved Multiscale Vision Transformers for Classification and Detection을 Review하고자 합니다. https://healess.github.io/paper/Paper-Improved-Multiscale-Vision-Transformers/ Paper : https://arxiv.org/pdf/2111.01673v1.pdf

Read more

자연어 처리의 Mechanism

입력 문장 (Sequence of Symbol)에 따라 형태소 분석기를 거치게 된다이 형태소 분석이라는 것은 입력 어절에 따라 어절 타입 검사 모듈, 코드 변환 모듈, 형태소 분석 모듈을 거쳐 결과값을 출력하게 되는데, 형태소 분석 모듈에서 다양한 모호성을 제거 하기 위해 다양한 처리를 수행하게 되는데 사전 검색 모듈 (TRIE), 불규칙 처리 모듈 (원형 추정), 음성 언어 처리를 위한 […]

Read more

TokenLearner: What Can 8 Learned Tokens Do for Images and Videos?

https://healess.github.io/paper/Paper-TokenLearner/

Read more

VIDEO SWIN tRANSFORMER

https://healess.github.io/paper/Paper-Video-Swin-Transformer/

Read more

Graph neural network #2-2 (heterogeneous graph transformer)

Read more

Graph neural network #2-1(Pinsage)

Read more