Ticker

6/random/ticker-posts

FlowRVS: Terobosan AI untuk Referring Video Segmentation yang Diterima di ICLR 2026

ALIBUNGKER - Sebuah terobosan baru dalam bidang computer vision telah hadir dengan nama FlowRVS. Penelitian ini telah diterima di ICLR 2026 (International Conference on Learning Representations), salah satu konferensi AI paling bergengsi di dunia.

begin_01.jpg 

Apa itu FlowRVS?

FlowRVS (Flow Matching for Referring Video Segmentation) adalah pendekatan baru yang mengubah paradigma dalam Referring Video Segmentation (RVOS). Berbeda dengan metode konvensional yang menggunakan pendekatan "locate-then-segment" (temukan lalu segmentasi), FlowRVS menggunakan flow matching untuk mendefinisikan video secara langsung menjadi mask target.

Mengapa FlowRVS Berbeda?

Metode tradisional RVOS menggunakan pendekatan berjenjang:

  1. Locate: Temukan objek dalam video
  2. Segment: Segmentasi objek yang ditemukan

Masalahnya, pendekatan ini menciptakan information bottleneck - informasi penting hilang di antara tahapan.

FlowRVS menggantinya dengan:

  • Unified end-to-end flow: Satu proses yang seamless dari input ke output
  • Continuous deformation: Video secara kontinu dideformasi menjadi mask
  • Text-conditioned: Dipandu oleh teks prompt

Fitur Utama FlowRVS

1. Paradigma Baru

Mengganti cascaded pipeline dengan unified flow yang menghindari information bottleneck.

2. Transfer dari Generative Model

Berhasil mentransfer kekuatan text-to-video generative model ke task RVOS dengan teknik-teknik yang principled.

3. State-of-the-Art Performance

Mencapai hasil SOTA pada benchmark-benchmark kunci seperti MeViS dataset.

Demo yang Mengesankan

FlowRVS menunjukkan kemampuan zero-shot generalization yang luar biasa. Meskipun hanya dilatih pada MeViS dataset, model ini berhasil bekerja dengan baik pada:

🎬 Ultraman

  • FPS: 12
  • Prompt: "the Ultraman", "the devil cat"
  • Kemampuan: Menangani interaksi dinamis kompleks (pertarungan) dan interferensi lingkungan berat (asap/kabut tebal)

🏀 Basketball

  • FPS: 12
  • Prompt: "the man wearing colorful shoes shoots the ball", "the man who is defending", "basketball"
  • Kemampuan: Tracking objek kecil yang bergerak cepat (bola basket) dan membedakan shooter dari defender

⚖️ Better Call Saul

  • FPS: 8
  • Prompt: "angry man in the suit shouting at another man"
  • Kemampuan: Temporal consistency jangka panjang, mempertahankan identitas selama extended sequences

🐱 Cat Memes

  • Kemampuan: Robust terhadap occlusions parah (rak, tisu, sosis) dan deformasi tubuh non-rigid yang signifikan

Cara Menggunakan FlowRVS

Setup Environment

git clone https://github.com/xmz111/FlowRVS.git && cd FlowRVS
conda create -n flowrvs python=3.10 -y
conda activate flowrvs
pip install -r requirements.txt

Download Model

pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B-Diffusers --local-dir ./Wan2.1-T2V-1.3B-Diffusers

Inference pada Video Apapun

python inference_demo.py   --input_path=video.mp4   --text_prompts "prompt_1" "prompt_2"   --fps=12   --save_fig   --output_dir=result   --dit_ckpt=FlowRVS_dit_mevis.pth   --vae_ckpt=tuned_vae.pth

Arsitektur FlowRVS

FlowRVS menggunakan:

  • DiT (Diffusion Transformer): Untuk modeling temporal
  • Tuned VAE: Untuk encoding video
  • T5 Encoder: Untuk text understanding
  • Flow Matching: Untuk continuous deformation

Requirements

Untuk menjalankan FlowRVS, Anda membutuhkan:

  • Python 3.10
  • CUDA GPU dengan ~33GB memory (untuk inference default)
  • PyTorch dengan CUDA support

Training

FlowRVS menyediakan kode training untuk berbagai dataset:

CUDA_VISIBLE_DEVICES=0,1 torchrun --nproc_per_node=2 main.py   --dataset_file=mevis   --num_frames=17   --lr=5e-5   --output_dir=mevis_training

Dataset yang didukung:

  • MeViS: Motion Expression Video Segmentation
  • YTVOS: YouTube Video Object Segmentation
  • Pretrain: Custom pretraining data

Kontribusi untuk Komunitas

FlowRVS adalah proyek open-source yang:

Dampak dan Aplikasi

FlowRVS membuka kemungkinan baru dalam:

  • Video Editing: Segmentasi objek otomatis untuk editing
  • Augmented Reality: Real-time object segmentation
  • Video Analysis: Content understanding yang lebih baik
  • Autonomous Systems: Object tracking dan segmentation
  • Content Creation: Otomatisasi proses kreatif

Citation

Jika Anda menggunakan FlowRVS dalam penelitian, silakan cite:

@article{wang2025flowrvs,
  title={Deforming Videos to Masks: Flow Matching for Referring Video Segmentation},
  author={Wang, Zanyi and Jiang, Dengyang and Li, Liuzhuozheng and Dang, Sizhe and Li, Chengzu and Yang, Harry and Dai, Guang and Wang, Mengmeng and Wang, Jingdong},
  journal={arXiv preprint arXiv:2510.06139}, 
  year={2025}
}

Kesimpulan

FlowRVS merepresentasikan lompatan signifikan dalam referring video segmentation. Dengan mengganti paradigma cascaded dengan unified flow matching, model ini tidak hanya mencapai performa SOTA tetapi juga menunjukkan generalisasi zero-shot yang mengesankan.

Kepenerimaan di ICLR 2026 menunjukkan bahwa komunitas AI mengakui kontribusi signifikan dari penelitian ini. Dengan kode dan model yang tersedia secara open-source, FlowRVS siap untuk diadopsi dan dikembangkan lebih lanjut oleh komunitas.

Links

Sumber: GitHub xmz111/FlowRVS

Post a Comment

0 Comments