{"record_type":"pith_number_record","schema_url":"https://pith.science/schemas/pith-number/v1.json","pith_number":"pith:2019:YCKTO57ACJOSYV2C5II5FNCVKL","short_pith_number":"pith:YCKTO57A","schema_version":"1.0","canonical_sha256":"c0953777e0125d2c5742ea11d2b45552e8fa51ab923359a76c6f70b0ca81b66d","source":{"kind":"arxiv","id":"1910.01442","version":2},"attestation_state":"computed","paper":{"title":"CLEVRER: CoLlision Events for Video REpresentation and Reasoning","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"CLEVRER shows video models describe collisions accurately but fail at explaining causes, predicting outcomes, or reasoning about alternatives.","cross_cats":["cs.AI","cs.CL","cs.LG"],"primary_cat":"cs.CV","authors_text":"Antonio Torralba, Chuang Gan, Jiajun Wu, Joshua B. Tenenbaum, Kexin Yi, Pushmeet Kohli, Yunzhu Li","submitted_at":"2019-10-03T13:16:36Z","abstract_excerpt":"The ability to reason about temporal and causal events from videos lies at the core of human intelligence. Most video reasoning benchmarks, however, focus on pattern recognition from complex visual and language input, instead of on causal structure. We study the complementary problem, exploring the temporal and causal structures behind videos of objects with simple visual appearance. To this end, we introduce the CoLlision Events for Video REpresentation and Reasoning (CLEVRER), a diagnostic video dataset for systematic evaluation of computational models on a wide range of reasoning tasks. Mot"},"verification_status":{"content_addressed":true,"pith_receipt":true,"author_attested":false,"weak_author_claims":0,"strong_author_claims":0,"externally_anchored":false,"storage_verified":false,"citation_signatures":0,"replication_records":0,"graph_snapshot":true,"references_resolved":true,"formal_links_present":true},"canonical_record":{"source":{"id":"1910.01442","kind":"arxiv","version":2},"metadata":{"license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","primary_cat":"cs.CV","submitted_at":"2019-10-03T13:16:36Z","cross_cats_sorted":["cs.AI","cs.CL","cs.LG"],"title_canon_sha256":"ce3702a80e6002b7aa4f141b07db198195323413a04f96bffd93cfe879324433","abstract_canon_sha256":"8930a24c1e57e3b6af8721f047049d228eaf6ed7c52e69b0ab201473d80f3b2e"},"schema_version":"1.0"},"receipt":{"kind":"pith_receipt","key_id":"pith-v1-2026-05","algorithm":"ed25519","signed_at":"2026-05-17T23:38:47.043476Z","signature_b64":"XuDjjcGS5rwulOcgyOshfeWT44CxzmJJ/WbkhqfhujsF8xMXSKCfRTckj69iF07X8QVJy7SGolGaIZ+s2rzqDw==","signed_message":"canonical_sha256_bytes","builder_version":"pith-number-builder-2026-05-17-v1","receipt_version":"0.3","canonical_sha256":"c0953777e0125d2c5742ea11d2b45552e8fa51ab923359a76c6f70b0ca81b66d","last_reissued_at":"2026-05-17T23:38:47.042917Z","signature_status":"signed_v1","first_computed_at":"2026-05-17T23:38:47.042917Z","public_key_fingerprint":"8d4b5ee74e4693bcd1df2446408b0d54"},"graph_snapshot":{"paper":{"title":"CLEVRER: CoLlision Events for Video REpresentation and Reasoning","license":"http://arxiv.org/licenses/nonexclusive-distrib/1.0/","headline":"CLEVRER shows video models describe collisions accurately but fail at explaining causes, predicting outcomes, or reasoning about alternatives.","cross_cats":["cs.AI","cs.CL","cs.LG"],"primary_cat":"cs.CV","authors_text":"Antonio Torralba, Chuang Gan, Jiajun Wu, Joshua B. Tenenbaum, Kexin Yi, Pushmeet Kohli, Yunzhu Li","submitted_at":"2019-10-03T13:16:36Z","abstract_excerpt":"The ability to reason about temporal and causal events from videos lies at the core of human intelligence. Most video reasoning benchmarks, however, focus on pattern recognition from complex visual and language input, instead of on causal structure. We study the complementary problem, exploring the temporal and causal structures behind videos of objects with simple visual appearance. To this end, we introduce the CoLlision Events for Video REpresentation and Reasoning (CLEVRER), a diagnostic video dataset for systematic evaluation of computational models on a wide range of reasoning tasks. Mot"},"claims":{"count":4,"items":[{"kind":"strongest_claim","text":"While these models thrive on the perception-based task (descriptive), they perform poorly on the causal tasks (explanatory, predictive and counterfactual), suggesting that a principled approach for causal reasoning should incorporate the capability of both perceiving complex visual and language inputs, and understanding the underlying dynamics and causal relations.","source":"verdict.strongest_claim","status":"machine_extracted","claim_id":"C1","attestation":"unclaimed"},{"kind":"weakest_assumption","text":"That the observed poor performance on causal tasks stems primarily from a lack of causal reasoning capability in the models rather than from dataset-specific artifacts, insufficient training regimes, or other unmeasured factors.","source":"verdict.weakest_assumption","status":"machine_extracted","claim_id":"C2","attestation":"unclaimed"},{"kind":"one_line_summary","text":"CLEVRER introduces a diagnostic dataset for evaluating video models on causal reasoning via descriptive, explanatory, predictive, and counterfactual questions about object collision events.","source":"verdict.one_line_summary","status":"machine_extracted","claim_id":"C3","attestation":"unclaimed"},{"kind":"headline","text":"CLEVRER shows video models describe collisions accurately but fail at explaining causes, predicting outcomes, or reasoning about alternatives.","source":"verdict.pith_extraction.headline","status":"machine_extracted","claim_id":"C4","attestation":"unclaimed"}],"snapshot_sha256":"b5f7829645189f18d952c7665ffb2e90fb506f0c57e24d19b7b882434654870d"},"source":{"id":"1910.01442","kind":"arxiv","version":2},"verdict":{"id":"6c7c1758-660c-44aa-adab-2895ab26c526","model_set":{"reader":"grok-4.3"},"created_at":"2026-05-16T17:57:07.896393Z","strongest_claim":"While these models thrive on the perception-based task (descriptive), they perform poorly on the causal tasks (explanatory, predictive and counterfactual), suggesting that a principled approach for causal reasoning should incorporate the capability of both perceiving complex visual and language inputs, and understanding the underlying dynamics and causal relations.","one_line_summary":"CLEVRER introduces a diagnostic dataset for evaluating video models on causal reasoning via descriptive, explanatory, predictive, and counterfactual questions about object collision events.","pipeline_version":"pith-pipeline@v0.9.0","weakest_assumption":"That the observed poor performance on causal tasks stems primarily from a lack of causal reasoning capability in the models rather than from dataset-specific artifacts, insufficient training regimes, or other unmeasured factors.","pith_extraction_headline":"CLEVRER shows video models describe collisions accurately but fail at explaining causes, predicting outcomes, or reasoning about alternatives."},"references":{"count":300,"sample":[{"doi":"","year":null,"title":"Generating the future with adversarial transformers , author=","work_id":"112a0d34-9bd6-446b-8696-b6cf9afe2da3","ref_index":1,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":null,"title":"How, whether, why: Causal judgments as counterfactual contrasts. , author=. CogSci , year=","work_id":"5b775747-0437-4ecd-90de-1521e132ce32","ref_index":2,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2016,"title":"Learning perceptual causality from video , author=. TIST , volume=. 2016 , publisher=","work_id":"9fbd3536-8506-4495-8079-6d7f5f2dfd62","ref_index":3,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":2009,"title":"Causality , author=. 2009 , publisher=","work_id":"afebe501-3ef8-491b-998d-c996051cc590","ref_index":4,"cited_arxiv_id":"","is_internal_anchor":false},{"doi":"","year":null,"title":"Self-supervised visual planning with temporal skip connections , author=","work_id":"10665674-079e-4805-8183-b65fa8ca5b93","ref_index":5,"cited_arxiv_id":"","is_internal_anchor":false}],"resolved_work":300,"snapshot_sha256":"90f317f639571c8393784cc0df368d9cc0076197e65be67ed463dcfe5a7172b3","internal_anchors":1},"formal_canon":{"evidence_count":2,"snapshot_sha256":"224218fc5fecd42a45569f719ea55fe03ed0864d6bf3e154324704c4e094cb87"},"author_claims":{"count":0,"strong_count":0,"snapshot_sha256":"258153158e38e3291e3d48162225fcdb2d5a3ed65a07baac614ab91432fd4f57"},"builder_version":"pith-number-builder-2026-05-17-v1"},"aliases":[{"alias_kind":"arxiv","alias_value":"1910.01442","created_at":"2026-05-17T23:38:47.043009+00:00"},{"alias_kind":"arxiv_version","alias_value":"1910.01442v2","created_at":"2026-05-17T23:38:47.043009+00:00"},{"alias_kind":"doi","alias_value":"10.48550/arxiv.1910.01442","created_at":"2026-05-17T23:38:47.043009+00:00"},{"alias_kind":"pith_short_12","alias_value":"YCKTO57ACJOS","created_at":"2026-05-18T12:33:33.725879+00:00"},{"alias_kind":"pith_short_16","alias_value":"YCKTO57ACJOSYV2C","created_at":"2026-05-18T12:33:33.725879+00:00"},{"alias_kind":"pith_short_8","alias_value":"YCKTO57A","created_at":"2026-05-18T12:33:33.725879+00:00"}],"events":[],"event_summary":{},"paper_claims":[],"inbound_citations":{"count":31,"internal_anchor_count":31,"sample":[{"citing_arxiv_id":"2605.23304","citing_title":"General Hazard Detection","ref_index":31,"is_internal_anchor":true},{"citing_arxiv_id":"2410.08334","citing_title":"Exploring Natural Language-Based Strategies for Efficient Number Learning in Children through Reinforcement Learning","ref_index":13,"is_internal_anchor":true},{"citing_arxiv_id":"2411.02327","citing_title":"PPLLaVA: Varied Video Sequence Understanding With Prompt Guidance","ref_index":18,"is_internal_anchor":true},{"citing_arxiv_id":"2501.05067","citing_title":"LLaVA-Octopus: Unlocking Instruction-Driven Adaptive Projector Fusion for Video Understanding","ref_index":82,"is_internal_anchor":true},{"citing_arxiv_id":"2602.13294","citing_title":"VisPhyWorld: Probing Physical Reasoning via Code-Driven Video Reconstruction","ref_index":42,"is_internal_anchor":true},{"citing_arxiv_id":"2605.21988","citing_title":"Learning Spatiotemporal Sensitivity in Video LLMs via Counterfactual Reinforcement Learning","ref_index":46,"is_internal_anchor":true},{"citing_arxiv_id":"2605.21931","citing_title":"EvoVid: Temporal-Centric Self-Evolution for Video Large Language Models","ref_index":26,"is_internal_anchor":true},{"citing_arxiv_id":"2605.22570","citing_title":"VGenST-Bench: A Benchmark for Spatio-Temporal Reasoning via Active Video Synthesis","ref_index":83,"is_internal_anchor":true},{"citing_arxiv_id":"2605.20576","citing_title":"$\\Delta$ynamics: Language-Based Representation for Inferring Rigid-Body Dynamics From Videos","ref_index":59,"is_internal_anchor":true},{"citing_arxiv_id":"2605.18878","citing_title":"Prognostic Value of Lung Ultrasound Biomarkers for Readmission Risk in Congestive Heart Failure: A Pilot Data-Driven Analysis","ref_index":206,"is_internal_anchor":true},{"citing_arxiv_id":"2501.09038","citing_title":"Do generative video models understand physical principles?","ref_index":38,"is_internal_anchor":true},{"citing_arxiv_id":"2605.15466","citing_title":"Entity-Centric World Models: Interaction-Aware Masking for Causal Video Prediction","ref_index":3,"is_internal_anchor":true},{"citing_arxiv_id":"2511.13026","citing_title":"REVISOR: Beyond Textual Reflection, Towards Multimodal Introspective Reasoning in Long-Form Video Understanding","ref_index":57,"is_internal_anchor":true},{"citing_arxiv_id":"2512.23365","citing_title":"SpatialMosaic: A Multiview VLM Dataset for Partial Visibility","ref_index":43,"is_internal_anchor":true},{"citing_arxiv_id":"2410.17434","citing_title":"LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding","ref_index":29,"is_internal_anchor":true},{"citing_arxiv_id":"2601.10611","citing_title":"Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding","ref_index":173,"is_internal_anchor":true},{"citing_arxiv_id":"2603.03944","citing_title":"SCP: Spatial Causal Prediction in Video","ref_index":58,"is_internal_anchor":true},{"citing_arxiv_id":"2505.13211","citing_title":"MAGI-1: Autoregressive Video Generation at Scale","ref_index":46,"is_internal_anchor":true},{"citing_arxiv_id":"2605.12449","citing_title":"LychSim: A Controllable and Interactive Simulation Framework for Vision Research","ref_index":59,"is_internal_anchor":true},{"citing_arxiv_id":"2604.28169","citing_title":"PhyCo: Learning Controllable Physical Priors for Generative Motion","ref_index":47,"is_internal_anchor":true},{"citing_arxiv_id":"2605.08412","citing_title":"SYNCR: A Cross-Video Reasoning Benchmark with Synthetic Grounding","ref_index":31,"is_internal_anchor":true},{"citing_arxiv_id":"2406.16852","citing_title":"Long Context Transfer from Language to Vision","ref_index":84,"is_internal_anchor":true},{"citing_arxiv_id":"2604.23580","citing_title":"PhysCodeBench: Benchmarking Physics-Aware Symbolic Simulation of 3D Scenes via Self-Corrective Multi-Agent Refinement","ref_index":31,"is_internal_anchor":true},{"citing_arxiv_id":"2604.23574","citing_title":"PhysLayer: Language-Guided Layered Animation with Depth-Aware Physics","ref_index":9,"is_internal_anchor":true},{"citing_arxiv_id":"2604.11399","citing_title":"Reasoning Resides in Layers: Restoring Temporal Reasoning in Video-Language Models with Layer-Selective Merging","ref_index":15,"is_internal_anchor":true}]},"formal_canon":{"evidence_count":2,"sample":[],"anchors":[]},"links":{"html":"https://pith.science/pith/YCKTO57ACJOSYV2C5II5FNCVKL","json":"https://pith.science/pith/YCKTO57ACJOSYV2C5II5FNCVKL.json","graph_json":"https://pith.science/api/pith-number/YCKTO57ACJOSYV2C5II5FNCVKL/graph.json","events_json":"https://pith.science/api/pith-number/YCKTO57ACJOSYV2C5II5FNCVKL/events.json","paper":"https://pith.science/paper/YCKTO57A"},"agent_actions":{"view_html":"https://pith.science/pith/YCKTO57ACJOSYV2C5II5FNCVKL","download_json":"https://pith.science/pith/YCKTO57ACJOSYV2C5II5FNCVKL.json","view_paper":"https://pith.science/paper/YCKTO57A","resolve_alias":"https://pith.science/api/pith-number/resolve?arxiv=1910.01442&json=true","fetch_graph":"https://pith.science/api/pith-number/YCKTO57ACJOSYV2C5II5FNCVKL/graph.json","fetch_events":"https://pith.science/api/pith-number/YCKTO57ACJOSYV2C5II5FNCVKL/events.json","actions":{"anchor_timestamp":"https://pith.science/pith/YCKTO57ACJOSYV2C5II5FNCVKL/action/timestamp_anchor","attest_storage":"https://pith.science/pith/YCKTO57ACJOSYV2C5II5FNCVKL/action/storage_attestation","attest_author":"https://pith.science/pith/YCKTO57ACJOSYV2C5II5FNCVKL/action/author_attestation","sign_citation":"https://pith.science/pith/YCKTO57ACJOSYV2C5II5FNCVKL/action/citation_signature","submit_replication":"https://pith.science/pith/YCKTO57ACJOSYV2C5II5FNCVKL/action/replication_record"}},"created_at":"2026-05-17T23:38:47.043009+00:00","updated_at":"2026-05-17T23:38:47.043009+00:00"}