FlowRVS: Terobosan AI untuk Referring Video Segmentation yang Diterima di ICLR 2026

ALIBUNGKER - Sebuah terobosan baru dalam bidang computer vision telah hadir dengan nama FlowRVS. Penelitian ini telah diterima di ICLR 2026 (International Conference on Learning Representations), salah satu konferensi AI paling bergengsi di dunia.

Apa itu FlowRVS?

FlowRVS (Flow Matching for Referring Video Segmentation) adalah pendekatan baru yang mengubah paradigma dalam Referring Video Segmentation (RVOS). Berbeda dengan metode konvensional yang menggunakan pendekatan "locate-then-segment" (temukan lalu segmentasi), FlowRVS menggunakan flow matching untuk mendefinisikan video secara langsung menjadi mask target.

Mengapa FlowRVS Berbeda?

Metode tradisional RVOS menggunakan pendekatan berjenjang:

Locate: Temukan objek dalam video
Segment: Segmentasi objek yang ditemukan

Masalahnya, pendekatan ini menciptakan information bottleneck - informasi penting hilang di antara tahapan.

FlowRVS menggantinya dengan:

Unified end-to-end flow: Satu proses yang seamless dari input ke output
Continuous deformation: Video secara kontinu dideformasi menjadi mask
Text-conditioned: Dipandu oleh teks prompt

Fitur Utama FlowRVS

1. Paradigma Baru

Mengganti cascaded pipeline dengan unified flow yang menghindari information bottleneck.

2. Transfer dari Generative Model

Berhasil mentransfer kekuatan text-to-video generative model ke task RVOS dengan teknik-teknik yang principled.

3. State-of-the-Art Performance

Mencapai hasil SOTA pada benchmark-benchmark kunci seperti MeViS dataset.

Demo yang Mengesankan

FlowRVS menunjukkan kemampuan zero-shot generalization yang luar biasa. Meskipun hanya dilatih pada MeViS dataset, model ini berhasil bekerja dengan baik pada:

🎬 Ultraman

FPS: 12
Prompt: "the Ultraman", "the devil cat"
Kemampuan: Menangani interaksi dinamis kompleks (pertarungan) dan interferensi lingkungan berat (asap/kabut tebal)

🏀 Basketball

FPS: 12
Prompt: "the man wearing colorful shoes shoots the ball", "the man who is defending", "basketball"
Kemampuan: Tracking objek kecil yang bergerak cepat (bola basket) dan membedakan shooter dari defender

⚖️ Better Call Saul

FPS: 8
Prompt: "angry man in the suit shouting at another man"
Kemampuan: Temporal consistency jangka panjang, mempertahankan identitas selama extended sequences

🐱 Cat Memes

Kemampuan: Robust terhadap occlusions parah (rak, tisu, sosis) dan deformasi tubuh non-rigid yang signifikan

Cara Menggunakan FlowRVS

Setup Environment

git clone https://github.com/xmz111/FlowRVS.git && cd FlowRVS
conda create -n flowrvs python=3.10 -y
conda activate flowrvs
pip install -r requirements.txt

Download Model

pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B-Diffusers --local-dir ./Wan2.1-T2V-1.3B-Diffusers

Inference pada Video Apapun

python inference_demo.py   --input_path=video.mp4   --text_prompts "prompt_1" "prompt_2"   --fps=12   --save_fig   --output_dir=result   --dit_ckpt=FlowRVS_dit_mevis.pth   --vae_ckpt=tuned_vae.pth

Arsitektur FlowRVS

FlowRVS menggunakan:

DiT (Diffusion Transformer): Untuk modeling temporal
Tuned VAE: Untuk encoding video
T5 Encoder: Untuk text understanding
Flow Matching: Untuk continuous deformation

Requirements

Untuk menjalankan FlowRVS, Anda membutuhkan:

Python 3.10
CUDA GPU dengan ~33GB memory (untuk inference default)
PyTorch dengan CUDA support

Training

FlowRVS menyediakan kode training untuk berbagai dataset:

CUDA_VISIBLE_DEVICES=0,1 torchrun --nproc_per_node=2 main.py   --dataset_file=mevis   --num_frames=17   --lr=5e-5   --output_dir=mevis_training

Dataset yang didukung:

MeViS: Motion Expression Video Segmentation
YTVOS: YouTube Video Object Segmentation
Pretrain: Custom pretraining data

Kontribusi untuk Komunitas

FlowRVS adalah proyek open-source yang:

Kode tersedia di GitHub
Model weights tersedia di Hugging Face
Paper tersedia di arXiv

Dampak dan Aplikasi

FlowRVS membuka kemungkinan baru dalam:

Video Editing: Segmentasi objek otomatis untuk editing
Augmented Reality: Real-time object segmentation
Video Analysis: Content understanding yang lebih baik
Autonomous Systems: Object tracking dan segmentation
Content Creation: Otomatisasi proses kreatif

Citation

Jika Anda menggunakan FlowRVS dalam penelitian, silakan cite:

@article{wang2025flowrvs,
  title={Deforming Videos to Masks: Flow Matching for Referring Video Segmentation},
  author={Wang, Zanyi and Jiang, Dengyang and Li, Liuzhuozheng and Dang, Sizhe and Li, Chengzu and Yang, Harry and Dai, Guang and Wang, Mengmeng and Wang, Jingdong},
  journal={arXiv preprint arXiv:2510.06139}, 
  year={2025}
}

Kesimpulan

FlowRVS merepresentasikan lompatan signifikan dalam referring video segmentation. Dengan mengganti paradigma cascaded dengan unified flow matching, model ini tidak hanya mencapai performa SOTA tetapi juga menunjukkan generalisasi zero-shot yang mengesankan.

Kepenerimaan di ICLR 2026 menunjukkan bahwa komunitas AI mengakui kontribusi signifikan dari penelitian ini. Dengan kode dan model yang tersedia secara open-source, FlowRVS siap untuk diadopsi dan dikembangkan lebih lanjut oleh komunitas.

Ticker

FlowRVS: Terobosan AI untuk Referring Video Segmentation yang Diterima di ICLR 2026

Apa itu FlowRVS?

Mengapa FlowRVS Berbeda?

Fitur Utama FlowRVS

1. Paradigma Baru

2. Transfer dari Generative Model

3. State-of-the-Art Performance

Demo yang Mengesankan

🎬 Ultraman

🏀 Basketball

⚖️ Better Call Saul

🐱 Cat Memes

Cara Menggunakan FlowRVS

Setup Environment

Download Model

Inference pada Video Apapun

Arsitektur FlowRVS

Requirements

Training

Kontribusi untuk Komunitas

Dampak dan Aplikasi

Citation

Kesimpulan

Links

Posted by alibungker

Post a Comment

0 Comments

Subscribe Us

Popular Posts

Pemutaran Film perdana Dokumenter Aceh

10 Kalimat Bajak - an

Met Ultah Toux Linda

Report Abuse

Footer Menu Widget

Ticker

FlowRVS: Terobosan AI untuk Referring Video Segmentation yang Diterima di ICLR 2026

Apa itu FlowRVS?

Mengapa FlowRVS Berbeda?

Fitur Utama FlowRVS

1. Paradigma Baru

2. Transfer dari Generative Model

3. State-of-the-Art Performance

Demo yang Mengesankan

🎬 Ultraman

🏀 Basketball

⚖️ Better Call Saul

🐱 Cat Memes

Cara Menggunakan FlowRVS

Setup Environment

Download Model

Inference pada Video Apapun

Arsitektur FlowRVS

Requirements

Training

Kontribusi untuk Komunitas

Dampak dan Aplikasi

Citation

Kesimpulan

Links

Posted by alibungker

You may like these posts

Post a Comment

0 Comments

Social Plugin

Subscribe Us

Popular Posts

Pemutaran Film perdana Dokumenter Aceh

10 Kalimat Bajak - an

Met Ultah Toux Linda

Report Abuse

Footer Menu Widget