Publications

Geo4D: Leveraging Video Generators for Geometric 4D Scene Reconstruction

Jiang Z, Zheng C, Laina I, Larlus D & Vedaldi A (2025)

BibTeX

@misc{geodleveragingv-2025/4,
  title={Geo4D: Leveraging Video Generators for Geometric 4D Scene Reconstruction},
  author={Jiang Z, Zheng C, Laina I, Larlus D & Vedaldi A},
  year = "2025"
}

SynCity: Training-Free Generation of 3D Worlds

Engstler P, Shtedritski A, Laina I, Rupprecht C & Vedaldi A (2025)

BibTeX

@misc{syncitytraining-2025/3,
  title={SynCity: Training-Free Generation of 3D Worlds},
  author={Engstler P, Shtedritski A, Laina I, Rupprecht C & Vedaldi A},
  year = "2025"
}

Learning segmentation from point trajectories

Karazija L, Laina I, Rupprecht C & Vedaldi A (2025), Advances in Neural Information Processing Systems 37 (NeurIPS 2024) Main Conference Track, 37, 112573-112597

BibTeX

@inproceedings{learningsegment-2025/2,
  title={Learning segmentation from point trajectories},
  author={Karazija L, Laina I, Rupprecht C & Vedaldi A},
  booktitle={38th Conference on Neural Information Processing Systems (NeurIPS 2024)},
  pages={112573-112597},
  year = "2025"
}

Learning segmentation from point trajectories

Karazija L, Laina I, Rupprecht C & Vedaldi A (2025)

BibTeX

@misc{learningsegment-2025/1,
  title={Learning segmentation from point trajectories},
  author={Karazija L, Laina I, Rupprecht C & Vedaldi A},
  year = "2025"
}

Rethinking Image Super-Resolution from Training Data Perspectives

Ohtani G, Tadokoro R, Yamada R, Asano YM, Laina I et al. (2025), 15075, 19-36

BibTeX

@misc{rethinkingimage-2025/,
  title={Rethinking Image Super-Resolution from Training Data Perspectives},
  author={Ohtani G, Tadokoro R, Yamada R, Asano YM, Laina I et al.},
  year = "2025"
}

Scaling Backwards: Minimal Synthetic Pre-Training?

Nakamura R, Tadokoro R, Yamada R, Asano YM, Laina I et al. (2025), 15073, 153-171

BibTeX

@misc{scalingbackward-2025/,
  title={Scaling Backwards: Minimal Synthetic Pre-Training?},
  author={Nakamura R, Tadokoro R, Yamada R, Asano YM, Laina I et al.},
  year = "2025"
}

3D-aware instance segmentation and tracking in egocentric videos

Bhalgat Y, Tschernezki V, Laina I, Henriques J, Vedaldi A et al. (2024), 347-364

BibTeX

@misc{dawareinstances-2024/12,
  title={3D-aware instance segmentation and tracking in egocentric videos},
  author={Bhalgat Y, Tschernezki V, Laina I, Henriques J, Vedaldi A et al.},
  year = "2024"
}

PartGen: Part-level 3D Generation and Reconstruction with Multi-View Diffusion Models

Chen M, Shapovalov R, Laina I, Monnier T, Wang J et al. (2024), arXiv

BibTeX

@inproceedings{partgenpartleve-2024/12,
  title={PartGen: Part-level 3D Generation and Reconstruction with Multi-View Diffusion Models},
  author={Chen M, Shapovalov R, Laina I, Monnier T, Wang J et al.},
  year = "2024"
}

3D-aware instance segmentation and tracking in egocentric videos

Bhalgat Y, Tschernezki V, Laina I, Henriques J, Vedaldi A et al. (2024), Computer Vision – ACCV 2024, 347-364

BibTeX

@inproceedings{dawareinstances-2024/12,
  title={3D-aware instance segmentation and tracking in egocentric videos},
  author={Bhalgat Y, Tschernezki V, Laina I, Henriques J, Vedaldi A et al.},
  booktitle={17th Asian Conference on Computer Vision (ACCV 2024)},
  pages={347-364},
  year = "2024"
}

N2F2: hierarchical scene understanding with nested neural feature fields

Bhalgat Y, Laina I, Henriques J, Zisserman A & Vedaldi A (2024), Computer Vision – ECCV 2024 18th European Conference, Milan, Italy, September 29–October 4, 2024, Proceedings, Part LIX, 197-214

BibTeX

@inproceedings{nfhierarchicals-2024/11,
  title={N2F2: hierarchical scene understanding with nested neural feature fields},
  author={Bhalgat Y, Laina I, Henriques J, Zisserman A & Vedaldi A},
  booktitle={20th European Conference on Computer Vision (ECCV 2024)},
  pages={197-214},
  year = "2024"
}

Contrastive lift: 3D object instance segmentation by slow-fast contrastive fusion

Bhalgat Y, Laina I, Henriques J, Zisserman A & Vedaldi A (2024), Advances in Neural Information Processing Systems 36, 9092

BibTeX

@inproceedings{contrastivelift-2024/10,
  title={Contrastive lift: 3D object instance segmentation by slow-fast contrastive fusion},
  author={Bhalgat Y, Laina I, Henriques J, Zisserman A & Vedaldi A},
  booktitle={37th Conference in Neural Information Processing Systems (NeurIPS 2023)},
  pages={9092},
  year = "2024"
}

Diffusion models for open-vocabulary segmentation

Karazija L, Laina I, Vedaldi A & Rupprecht C (2024), Computer Vision – ECCV 2024: 18th European Conference, Milan, Italy, September 29–October 4, 2024, Proceedings, Part V, 299-317

BibTeX

@inproceedings{diffusionmodels-2024/10,
  title={Diffusion models for open-vocabulary segmentation},
  author={Karazija L, Laina I, Vedaldi A & Rupprecht C},
  booktitle={20th European Conference on Computer Vision (ECCV 2024)},
  pages={299-317},
  year = "2024"
}

Splatt3R: Zero-shot Gaussian Splatting from Uncalibrated Image Pairs

Smart B, Zheng C, Laina I & Prisacariu VA (2024)

BibTeX

@misc{splattrzeroshot-2024/8,
  title={Splatt3R: Zero-shot Gaussian Splatting from Uncalibrated Image Pairs},
  author={Smart B, Zheng C, Laina I & Prisacariu VA},
  year = "2024"
}

3D-aware instance segmentation and tracking in egocentric videos

Bhalgat Y, Tschernezki V, Laina I, Henriques J, Vedaldi A et al. (2024)

BibTeX

@misc{dawareinstances-2024/8,
  title={3D-aware instance segmentation and tracking in egocentric videos},
  author={Bhalgat Y, Tschernezki V, Laina I, Henriques J, Vedaldi A et al.},
  year = "2024"
}

IM-3D: iterative multiview diffusion and reconstruction for high-quality 3D generation

Melas-Kyriazi L, Laina I, Rupprecht C, Neverova N, Vedaldi A et al. (2024), Proceedings of the 41st International Conference on Machine Learning, 35310-35323

BibTeX

@inproceedings{imditerativemul-2024/7,
  title={IM-3D: iterative multiview diffusion and reconstruction for high-quality 3D generation},
  author={Melas-Kyriazi L, Laina I, Rupprecht C, Neverova N, Vedaldi A et al.},
  booktitle={41st International Conference on Machine Learning (ICML 2024)},
  pages={35310-35323},
  year = "2024"
}

SHAP-EDITOR: instruction-guided latent 3D editing in seconds

Chen M, Xie J, Laina I & Vedaldi A (2024), 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 26446-26456

BibTeX

@inproceedings{shapeditorinstr-2024/5,
  title={SHAP-EDITOR: instruction-guided latent 3D editing in seconds},
  author={Chen M, Xie J, Laina I & Vedaldi A},
  booktitle={Conference on Computer Vision and Pattern Recognition (CVPR 2024)},
  pages={26446-26456},
  year = "2024"
}

When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models

Ma X, Bhalgat Y, Smart B, Chen S, Li X et al. (2024)

BibTeX

@misc{whenllmsstepint-2024/5,
  title={When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models},
  author={Ma X, Bhalgat Y, Smart B, Chen S, Li X et al.},
  year = "2024"
}

Training-free layout control with cross-attention guidance

Chen M, Laina I & Vedaldi A (2024), 2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 5331-5341

BibTeX

@inproceedings{trainingfreelay-2024/4,
  title={Training-free layout control with cross-attention guidance},
  author={Chen M, Laina I & Vedaldi A},
  booktitle={IEEE/CVF Winter Conference on Applications of Computer Vision (WACV 2024)},
  pages={5331-5341},
  year = "2024"
}

Invisible stitch: generating smooth 3D scenes with depth inpainting

Engstler P, Vedaldi A, Laina I & Rupprecht C (2024)

BibTeX

@misc{invisiblestitch-2024/4,
  title={Invisible stitch: generating smooth 3D scenes with depth inpainting},
  author={Engstler P, Vedaldi A, Laina I & Rupprecht C},
  year = "2024"
}

DGE: Direct Gaussian 3D editing by consistent multi-view editing

Chen M, Laina I & Vedaldi A (2024)

BibTeX

@misc{dgedirectgaussi-2024/4,
  title={DGE: Direct Gaussian 3D editing by consistent multi-view editing},
  author={Chen M, Laina I & Vedaldi A},
  year = "2024"
}

N2F2: Hierarchical Scene Understanding with Nested Neural Feature Fields

Bhalgat Y, Laina I, Henriques JF, Zisserman A & Vedaldi A (2024)

BibTeX

@misc{nfhierarchicals-2024/3,
  title={N2F2: Hierarchical Scene Understanding with Nested Neural Feature Fields},
  author={Bhalgat Y, Laina I, Henriques JF, Zisserman A & Vedaldi A},
  year = "2024"
}

IM-3D: iterative multiview diffusion and reconstruction for high-quality 3D generation

Melas-Kyriazi L, Laina I, Rupprecht C, Neverova N, Vedaldi A et al. (2024)

BibTeX

@misc{imditerativemul-2024/2,
  title={IM-3D: iterative multiview diffusion and reconstruction for high-quality 3D generation},
  author={Melas-Kyriazi L, Laina I, Rupprecht C, Neverova N, Vedaldi A et al.},
  year = "2024"
}

EPIC Fields: marrying 3D geometry and video understanding

Tschernezki V, Darkhalil A, Zhu Z, Fouhey D, Laina I et al. (2024), Proceedings of Advances in Neural Information Processing Systems (NeurIPS): Track on Datasets and Benchmarks, 2023, 36, 26485-26500

BibTeX

@inproceedings{epicfieldsmarry-2024/1,
  title={EPIC Fields: marrying 3D geometry and video understanding},
  author={Tschernezki V, Darkhalil A, Zhu Z, Fouhey D, Laina I et al.},
  booktitle={Advances in Neural Information Processing Systems (NeurIPS2023)},
  pages={26485-26500},
  year = "2024"
}

SHAP-EDITOR: Instruction-guided Latent 3D Editing in Seconds

Chen M, Xie J, Laina I & Vedaldi A (2023)

BibTeX

@misc{shapeditorinstr-2023/12,
  title={SHAP-EDITOR: Instruction-guided Latent 3D Editing in Seconds},
  author={Chen M, Xie J, Laina I & Vedaldi A},
  year = "2023"
}

RealFusion: 360 reconstruction of any object from a single image

Melas-Kyriazi L, Laina I, Rupprecht C & Vedaldi A (2023), 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 8446-8455

BibTeX

@inproceedings{realfusionrecon-2023/8,
  title={RealFusion: 360 reconstruction of any object from a single image},
  author={Melas-Kyriazi L, Laina I, Rupprecht C & Vedaldi A},
  booktitle={Conference on Computer Vision and Pattern Recognition (CVPR 2023)},
  pages={8446-8455},
  year = "2023"
}

Diffusion models for open-vocabulary segmentation

Karazija L, Vedaldi A, Laina I & Rupprecht C (2023)

BibTeX

@misc{diffusionmodels-2023/6,
  title={Diffusion models for open-vocabulary segmentation},
  author={Karazija L, Vedaldi A, Laina I & Rupprecht C},
  year = "2023"
}

Contrastive Lift: 3D Object Instance Segmentation by Slow-Fast Contrastive Fusion

Bhalgat Y, Laina I, Henriques JF, Zisserman A & Vedaldi A (2023)

BibTeX

@misc{contrastivelift-2023/6,
  title={Contrastive Lift: 3D Object Instance Segmentation by Slow-Fast Contrastive Fusion},
  author={Bhalgat Y, Laina I, Henriques JF, Zisserman A & Vedaldi A},
  year = "2023"
}

EPIC Fields: marrying 3D geometry and video understanding

Tschernezki V, Darkhalil A, Zhu Z, Fouhey D, Laina I et al. (2023)

BibTeX

@misc{epicfieldsmarry-2023/6,
  title={EPIC Fields: marrying 3D geometry and video understanding},
  author={Tschernezki V, Darkhalil A, Zhu Z, Fouhey D, Laina I et al.},
  year = "2023"
}

Training-free layout control with cross-attention guidance

Chen M, Laina I & Vedaldi A (2023)

BibTeX

@misc{trainingfreelay-2023/4,
  title={Training-free layout control with cross-attention guidance},
  author={Chen M, Laina I & Vedaldi A},
  year = "2023"
}

Neural feature fusion fields: 3D distillation of self-supervised 2D image representations

Tschernezki V, Laina I, Larlus D & Vedaldi A (2023), 2022 International Conference on 3D Vision (3DV), 443-453

BibTeX

@inproceedings{neuralfeaturefu-2023/2,
  title={Neural feature fusion fields: 3D distillation of self-supervised 2D image representations},
  author={Tschernezki V, Laina I, Larlus D & Vedaldi A},
  booktitle={10th International Conference on 3D Vision (3DV 2022)},
  pages={443-453},
  year = "2023"
}

RealFusion: 360° reconstruction of any object from a single image

Melas-Kyriazi L, Rupprecht C, Laina I & Vedaldi A (2023)

BibTeX

@misc{realfusionrecon-2023/2,
  title={RealFusion: 360° reconstruction of any object from a single image},
  author={Melas-Kyriazi L, Rupprecht C, Laina I & Vedaldi A},
  year = "2023"
}

Guess what moves: unsupervised video and image segmentation by anticipating motion

Choudhury S, Karazija L, Laina I, Vedaldi A & Rupprecht C (2022), 33rd British Machine Vision Conference Proceedings

BibTeX

@inproceedings{guesswhatmovesu-2022/11,
  title={Guess what moves: unsupervised video and image segmentation by anticipating motion},
  author={Choudhury S, Karazija L, Laina I, Vedaldi A & Rupprecht C},
  booktitle={33rd British Machine Vision Conference (BMVC 2022)},
  year = "2022"
}

Unsupervised multi-object segmentation by predicting probable motion patterns

Karazija L, Choudhury S, Laina I, Rupprecht C & Vedaldi A (2022)

BibTeX

@misc{unsupervisedmul-2022/10,
  title={Unsupervised multi-object segmentation by predicting probable motion patterns},
  author={Karazija L, Choudhury S, Laina I, Rupprecht C & Vedaldi A},
  year = "2022"
}

Deep spectral methods: a surprisingly strong baseline for unsupervised semantic segmentation and localization

Melas-Kyriazi L, Rupprecht C, Laina I & Vedaldi A (2022), 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 8354-8365

BibTeX

@inproceedings{deepspectralmet-2022/9,
  title={Deep spectral methods: a surprisingly strong baseline for unsupervised semantic segmentation and localization},
  author={Melas-Kyriazi L, Rupprecht C, Laina I & Vedaldi A},
  booktitle={IEEE/CVF Computer Vision and Pattern Recognition Conference (CVPR 2022)},
  pages={8354-8365},
  year = "2022"
}

Neural feature fusion fields: 3D distillation of self-supervised 2D image representations

Tschernezki V, Laina I, Larlus D & Vedaldi A (2022)

BibTeX

@misc{neuralfeaturefu-2022/9,
  title={Neural feature fusion fields: 3D distillation of self-supervised 2D image representations},
  author={Tschernezki V, Laina I, Larlus D & Vedaldi A},
  year = "2022"
}

Measuring the interpretability of unsupervised representations via quantized reverse probing

Laina I, Asano YM & Vedaldi A (2022)

BibTeX

@misc{measuringtheint-2022/9,
  title={Measuring the interpretability of unsupervised representations via quantized reverse probing},
  author={Laina I, Asano YM & Vedaldi A},
  year = "2022"
}

Guess what moves: unsupervised video and image segmentation by anticipating motion

Choudhury S, Karazija L, Laina I, Vedaldi A & Rupprecht C (2022)

BibTeX

@misc{guesswhatmovesu-2022/5,
  title={Guess what moves: unsupervised video and image segmentation by anticipating motion},
  author={Choudhury S, Karazija L, Laina I, Vedaldi A & Rupprecht C},
  year = "2022"
}

Deep spectral methods: a surprisingly strong baseline for unsupervised semantic segmentation and localization

Melas-Kyriazi L, Rupprecht C, Laina I & Vedaldi A (2022)

BibTeX

@misc{deepspectralmet-2022/5,
  title={Deep spectral methods: a surprisingly strong baseline for unsupervised semantic segmentation and localization},
  author={Melas-Kyriazi L, Rupprecht C, Laina I & Vedaldi A},
  year = "2022"
}

The curious layperson: fine-grained image recognition without expert labels

Choudhury S, Laina I, Rupprecht C & Vedaldi A (2022), Proceedings of the 32nd British Machine Vision Conference (BMVC 2021)

BibTeX

@inproceedings{thecuriouslaype-2022/3,
  title={The curious layperson: fine-grained image recognition without expert labels},
  author={Choudhury S, Laina I, Rupprecht C & Vedaldi A},
  booktitle={32nd British Machine Vision Conference (BMVC 2021)},
  year = "2022"
}

Unsupervised multi-object segmentation by predicting probable motion patterns

Karazija L, Choudhury S, Laina I, Rupprecht C & Vedaldi A (2022), Advances in Neural Information Processing Systems 35 (NeurIPS 2022), 35

BibTeX

@inproceedings{unsupervisedmul-2022/1,
  title={Unsupervised multi-object segmentation by predicting probable motion patterns},
  author={Karazija L, Choudhury S, Laina I, Rupprecht C & Vedaldi A},
  booktitle={36th Neural Information Processing Systems (NeurIPS 2022)},
  year = "2022"
}

Unsupervised part discovery from contrastive reconstruction

Choudhury S, Laina I, Rupprecht C & Vedaldi A (2021), Proceedings of the 34th Conference on Neural Information Processing Systems (NeuRIPS 2021)

BibTeX

@inproceedings{unsupervisedpar-2021/12,
  title={Unsupervised part discovery from contrastive reconstruction},
  author={Choudhury S, Laina I, Rupprecht C & Vedaldi A},
  booktitle={34th Conference on Neural Information Processing Systems (NeuRIPS 2021)},
  year = "2021"
}

The curious layperson: fine-grained image recognition without expert labels

Choudhury S, Laina I, Rupprecht C & Vedaldi A (2021)

BibTeX

@misc{thecuriouslaype-2021/11,
  title={The curious layperson: fine-grained image recognition without expert labels},
  author={Choudhury S, Laina I, Rupprecht C & Vedaldi A},
  year = "2021"
}

Unsupervised part discovery from contrastive reconstruction

Choudhury S, Laina I, Rupprecht C & Vedaldi A (2021)

BibTeX

@misc{unsupervisedpar-2021/11,
  title={Unsupervised part discovery from contrastive reconstruction},
  author={Choudhury S, Laina I, Rupprecht C & Vedaldi A},
  year = "2021"
}

Measuring the interpretability of unsupervised representations via quantized reversed probing

Laina I, Asano Y & Vedaldi A (2021), International Conference on Learning Representations

BibTeX

@inproceedings{measuringtheint-2021/9,
  title={Measuring the interpretability of unsupervised representations via quantized reversed probing},
  author={Laina I, Asano Y & Vedaldi A},
  booktitle={Tenth International Conference on Learning Representations (ICLR 2022)},
  year = "2021"
}

Finding an unsupervised image segmenter in each of your deep generative models

Melas-Kyriazi L, Rupprecht C, Laina I & Vedaldi A (2021), International Conference on Learning Representations

BibTeX

@inproceedings{findinganunsupe-2021/9,
  title={Finding an unsupervised image segmenter in each of your deep generative models},
  author={Melas-Kyriazi L, Rupprecht C, Laina I & Vedaldi A},
  booktitle={ Tenth International Conference on Learning Representations (ICLR 2022)},
  year = "2021"
}

Quantifying learnability and describability of visual concepts emerging in representation learning

Laina I, Fong RC & Vedaldi A (2021), Advances in Neural Information Processing Systems 33, 16, 13112-13126

BibTeX

@inproceedings{quantifyinglear-2021/7,
  title={Quantifying learnability and describability of visual concepts emerging in representation learning},
  author={Laina I, Fong RC & Vedaldi A},
  booktitle={34th Annual Conference on Neural Information Processing Systems (NeurIPS 2020)},
  pages={13112-13126},
  year = "2021"
}

Finding an unsupervised image segmenter in each of your deep generative models

Melas-Kyriazi L, Rupprecht C, Laina I & Vedaldi A (2021)

BibTeX

@misc{findinganunsupe-2021/5,
  title={Finding an unsupervised image segmenter in each of your deep generative models},
  author={Melas-Kyriazi L, Rupprecht C, Laina I & Vedaldi A},
  year = "2021"
}

The Curious Layperson: Fine-Grained Image Recognition without Expert Labels

Choudhury S, Laina I, Rupprecht C & Vedaldi A (2021), 32nd British Machine Vision Conference, BMVC 2021

BibTeX

@inproceedings{thecuriouslaype-2021/1,
  title={The Curious Layperson: Fine-Grained Image Recognition without Expert Labels},
  author={Choudhury S, Laina I, Rupprecht C & Vedaldi A},
  year = "2021"
}

CLEVRTEX: A Texture-Rich Benchmark for Unsupervised Multi-Object Segmentation

Karazija L, Laina I & Rupprecht C (2021), Advances in Neural Information Processing Systems

BibTeX

@inproceedings{clevrtexatextur-2021/1,
  title={CLEVRTEX: A Texture-Rich Benchmark for Unsupervised Multi-Object Segmentation},
  author={Karazija L, Laina I & Rupprecht C},
  year = "2021"
}

Quantifying learnability and describability of visual concepts emerging in representation learning

Laina I, Fong RC & Vedaldi A (2020)

BibTeX

@misc{quantifyinglear-2020/10,
  title={Quantifying learnability and describability of visual concepts emerging in representation learning},
  author={Laina I, Fong RC & Vedaldi A},
  year = "2020"
}

Showing 50 publications by Iro Laina

Geo4D: Leveraging Video Generators for Geometric 4D Scene Reconstruction

SynCity: Training-Free Generation of 3D Worlds

Learning segmentation from point trajectories

Learning segmentation from point trajectories

Rethinking Image Super-Resolution from Training Data Perspectives

Scaling Backwards: Minimal Synthetic Pre-Training?

3D-aware instance segmentation and tracking in egocentric videos

PartGen: Part-level 3D Generation and Reconstruction with Multi-View Diffusion Models

3D-aware instance segmentation and tracking in egocentric videos

N2F2: hierarchical scene understanding with nested neural feature fields

Contrastive lift: 3D object instance segmentation by slow-fast contrastive fusion

Diffusion models for open-vocabulary segmentation

Splatt3R: Zero-shot Gaussian Splatting from Uncalibrated Image Pairs

3D-aware instance segmentation and tracking in egocentric videos

IM-3D: iterative multiview diffusion and reconstruction for high-quality 3D generation

SHAP-EDITOR: instruction-guided latent 3D editing in seconds

When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models

Training-free layout control with cross-attention guidance

Invisible stitch: generating smooth 3D scenes with depth inpainting

DGE: Direct Gaussian 3D editing by consistent multi-view editing

N2F2: Hierarchical Scene Understanding with Nested Neural Feature Fields

IM-3D: iterative multiview diffusion and reconstruction for high-quality 3D generation

EPIC Fields: marrying 3D geometry and video understanding

SHAP-EDITOR: Instruction-guided Latent 3D Editing in Seconds

RealFusion: 360 reconstruction of any object from a single image

Diffusion models for open-vocabulary segmentation

Contrastive Lift: 3D Object Instance Segmentation by Slow-Fast Contrastive Fusion

EPIC Fields: marrying 3D geometry and video understanding

Training-free layout control with cross-attention guidance

Neural feature fusion fields: 3D distillation of self-supervised 2D image representations

RealFusion: 360° reconstruction of any object from a single image

Guess what moves: unsupervised video and image segmentation by anticipating motion

Unsupervised multi-object segmentation by predicting probable motion patterns

Deep spectral methods: a surprisingly strong baseline for unsupervised semantic segmentation and localization

Neural feature fusion fields: 3D distillation of self-supervised 2D image representations

Measuring the interpretability of unsupervised representations via quantized reverse probing

Guess what moves: unsupervised video and image segmentation by anticipating motion

Deep spectral methods: a surprisingly strong baseline for unsupervised semantic segmentation and localization

The curious layperson: fine-grained image recognition without expert labels

Unsupervised multi-object segmentation by predicting probable motion patterns

Unsupervised part discovery from contrastive reconstruction

The curious layperson: fine-grained image recognition without expert labels

Unsupervised part discovery from contrastive reconstruction

Measuring the interpretability of unsupervised representations via quantized reversed probing

Finding an unsupervised image segmenter in each of your deep generative models

Quantifying learnability and describability of visual concepts emerging in representation learning

Finding an unsupervised image segmenter in each of your deep generative models

The Curious Layperson: Fine-Grained Image Recognition without Expert Labels

CLEVRTEX: A Texture-Rich Benchmark for Unsupervised Multi-Object Segmentation

Quantifying learnability and describability of visual concepts emerging in representation learning