ALIBUNGKER - Sebuah terobosan baru dalam bidang computer vision telah hadir dengan nama FlowRVS. Penelitian ini telah diterima di ICLR 2026 (International Conference on Learning Representations), salah satu konferensi AI paling bergengsi di dunia.
Apa itu FlowRVS?
FlowRVS (Flow Matching for Referring Video Segmentation) adalah pendekatan baru yang mengubah paradigma dalam Referring Video Segmentation (RVOS). Berbeda dengan metode konvensional yang menggunakan pendekatan "locate-then-segment" (temukan lalu segmentasi), FlowRVS menggunakan flow matching untuk mendefinisikan video secara langsung menjadi mask target.
Mengapa FlowRVS Berbeda?
Metode tradisional RVOS menggunakan pendekatan berjenjang:
- Locate: Temukan objek dalam video
- Segment: Segmentasi objek yang ditemukan
Masalahnya, pendekatan ini menciptakan information bottleneck - informasi penting hilang di antara tahapan.
FlowRVS menggantinya dengan:
- Unified end-to-end flow: Satu proses yang seamless dari input ke output
- Continuous deformation: Video secara kontinu dideformasi menjadi mask
- Text-conditioned: Dipandu oleh teks prompt
Fitur Utama FlowRVS
1. Paradigma Baru
Mengganti cascaded pipeline dengan unified flow yang menghindari information bottleneck.
2. Transfer dari Generative Model
Berhasil mentransfer kekuatan text-to-video generative model ke task RVOS dengan teknik-teknik yang principled.
3. State-of-the-Art Performance
Mencapai hasil SOTA pada benchmark-benchmark kunci seperti MeViS dataset.
Demo yang Mengesankan
FlowRVS menunjukkan kemampuan zero-shot generalization yang luar biasa. Meskipun hanya dilatih pada MeViS dataset, model ini berhasil bekerja dengan baik pada:
🎬 Ultraman
- FPS: 12
- Prompt: "the Ultraman", "the devil cat"
- Kemampuan: Menangani interaksi dinamis kompleks (pertarungan) dan interferensi lingkungan berat (asap/kabut tebal)
🏀 Basketball
- FPS: 12
- Prompt: "the man wearing colorful shoes shoots the ball", "the man who is defending", "basketball"
- Kemampuan: Tracking objek kecil yang bergerak cepat (bola basket) dan membedakan shooter dari defender
⚖️ Better Call Saul
- FPS: 8
- Prompt: "angry man in the suit shouting at another man"
- Kemampuan: Temporal consistency jangka panjang, mempertahankan identitas selama extended sequences
🐱 Cat Memes
- Kemampuan: Robust terhadap occlusions parah (rak, tisu, sosis) dan deformasi tubuh non-rigid yang signifikan
Cara Menggunakan FlowRVS
Setup Environment
git clone https://github.com/xmz111/FlowRVS.git && cd FlowRVS
conda create -n flowrvs python=3.10 -y
conda activate flowrvs
pip install -r requirements.txt
Download Model
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B-Diffusers --local-dir ./Wan2.1-T2V-1.3B-Diffusers
Inference pada Video Apapun
python inference_demo.py --input_path=video.mp4 --text_prompts "prompt_1" "prompt_2" --fps=12 --save_fig --output_dir=result --dit_ckpt=FlowRVS_dit_mevis.pth --vae_ckpt=tuned_vae.pth
Arsitektur FlowRVS
FlowRVS menggunakan:
- DiT (Diffusion Transformer): Untuk modeling temporal
- Tuned VAE: Untuk encoding video
- T5 Encoder: Untuk text understanding
- Flow Matching: Untuk continuous deformation
Requirements
Untuk menjalankan FlowRVS, Anda membutuhkan:
- Python 3.10
- CUDA GPU dengan ~33GB memory (untuk inference default)
- PyTorch dengan CUDA support
Training
FlowRVS menyediakan kode training untuk berbagai dataset:
CUDA_VISIBLE_DEVICES=0,1 torchrun --nproc_per_node=2 main.py --dataset_file=mevis --num_frames=17 --lr=5e-5 --output_dir=mevis_training
Dataset yang didukung:
- MeViS: Motion Expression Video Segmentation
- YTVOS: YouTube Video Object Segmentation
- Pretrain: Custom pretraining data
Kontribusi untuk Komunitas
FlowRVS adalah proyek open-source yang:
- Kode tersedia di GitHub
- Model weights tersedia di Hugging Face
- Paper tersedia di arXiv
Dampak dan Aplikasi
FlowRVS membuka kemungkinan baru dalam:
- Video Editing: Segmentasi objek otomatis untuk editing
- Augmented Reality: Real-time object segmentation
- Video Analysis: Content understanding yang lebih baik
- Autonomous Systems: Object tracking dan segmentation
- Content Creation: Otomatisasi proses kreatif
Citation
Jika Anda menggunakan FlowRVS dalam penelitian, silakan cite:
@article{wang2025flowrvs,
title={Deforming Videos to Masks: Flow Matching for Referring Video Segmentation},
author={Wang, Zanyi and Jiang, Dengyang and Li, Liuzhuozheng and Dang, Sizhe and Li, Chengzu and Yang, Harry and Dai, Guang and Wang, Mengmeng and Wang, Jingdong},
journal={arXiv preprint arXiv:2510.06139},
year={2025}
}
Kesimpulan
FlowRVS merepresentasikan lompatan signifikan dalam referring video segmentation. Dengan mengganti paradigma cascaded dengan unified flow matching, model ini tidak hanya mencapai performa SOTA tetapi juga menunjukkan generalisasi zero-shot yang mengesankan.
Kepenerimaan di ICLR 2026 menunjukkan bahwa komunitas AI mengakui kontribusi signifikan dari penelitian ini. Dengan kode dan model yang tersedia secara open-source, FlowRVS siap untuk diadopsi dan dikembangkan lebih lanjut oleh komunitas.
Links
- GitHub: https://github.com/xmz111/FlowRVS
- Paper: https://arxiv.org/abs/2510.06139
- Model: https://huggingface.co/xmz111/FlowRVS
Sumber: GitHub xmz111/FlowRVS
0 Comments
Terima kasih atas komentarnya
Emoji