NetMind.AI

Our Research and
Publications on AI

Through our research, NetMind seeks to address the most critical challenges and opportunities in AI, and to create a brighter future for humanity by unlocking the potential of AGI.

side-image

ClawBench: Can AI Agents Complete Everyday Online Tasks?

icon1

Computation and Language (cs.CL)

icon2

Yuxuan Zhang,Yubo Wang,Yipeng Zhu,Penghui Du,Junwen Miao,Xuan Lu,Wendong Xu,Yunzhuo Hao,Songcheng Cai,Xiaochen Wang,Huaisong Zhang,Xian Wu,Yi Lu,Minyi Lei,Kai Zou,Huifeng Yin,Ping Nie,Liang Chen,Dongfu Jiang,Wenhu Chen,Kelsey R. Allen

OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory Synthesis

icon1

Information Retrieval (cs.IR)

icon2

Zhuofeng Li,Dongfu Jiang,Xueguang Ma,Haoxiang Zhang,Ping Nie,Yuyu Zhang,Kai Zou,Jianwen Xie,Yu Zhang,Wenhu Chen

February 10 2026

Beyond Closed-Pool Video Retrieval: A Benchmark and Agent Framework for Real-World Video Search and Moment Localization

icon1

Computer Vision and Pattern Recognition (cs.CV)

icon2

Tao Yu,Yujia Yang,Haopeng Jin,Junhao Gong,Xinlong Chen,Yuxuan Zhou,Shanbin Zhang,Jiabing Yang,Xinming Wang,Hongzhu Yi,Ping Nie,Kai Zou,Zhang Zhang,Yan Huang,Liang Wang,Yeshani,Ruiwen Tao,Jin Ma,Haijin Liang,Jinwen Luo

February 05 2026

Context Forcing: Consistent Autoregressive Video Generation with Long Context

icon1

Computer Vision and Pattern Recognition (cs.CV)

icon2

Shuo Chen,Cong Wei,Sun Sun,Ping Nie,Kai Zhou,Ge Zhang,Ming-Hsuan Yang,Wenhu Chen

October 24 2025

VisCoder2: Building Multi-Language Visualization Coding Agents

icon1

Software Engineering (cs.SE)

icon2

Yuansheng Ni,Songcheng Cai,Xiangchao Chen,Jiarong Liang,Zhiheng Lyu,Jiaqi Deng,Kai Zou,Ping Nie,Fei Yuan,Xiang Yue,Wenhu Chen

September 01 2025

VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use

icon1

Artificial Intelligence (cs.AI)

icon2

Dongfu Jiang,Yi Lu,Zhuofeng Li,Zhiheng Lyu,Ping Nie,Haozhe Wang,Alex Su,Hui Chen,Kai Zou,Chao Du,Tianyu Pang,Wenhu Chen

February 03 2025

AceCoder: Acing Coder RL via Automated Test-Case Synthesis

icon1

Software Engineering (cs.SE)

icon2

Huaye Zeng,Dongfu Jiang,Haozhe Wang,Ping Nie,Xiaotong Chen,Wenhu Chen

VisCoder: Fine-Tuning LLMs for Executable Python Visualization Code Generation

icon1

Software Engineering (cs.SE)

icon2

Yuansheng Ni,Ping Nie,Kai Zou,Xiang Yue,Wenhu Chen

Unleashing the Reasoning Potential of Pre-trained LLMs by Critique Fine-Tuning on One Problem

icon1

Computation and Language (cs.CL)

icon2

Yubo Wang,Ping Nie,Kai Zou,Lijun Wu,Wenhu Chen

Primitive Vision: Improving Diagram Understanding in MLLMs

icon1

Computer Vision and Pattern Recognition (cs.CV)

icon2

Shan Zhang,Aotian Chen,Yanpeng Sun,Jindong Gu,Yi-Yu Zheng,Piotr Koniusz,Kai Zou,Anton Hengel,Yuan Xue

Math Blind: Failures in Diagram Understanding Undermine Reasoning in MLLMs

icon1

Computer Vision and Pattern Recognition (cs.CV)

icon2

Yanpeng Sun,Shan Zhang,Wei Tang,Aotian Chen,Piotr Koniusz,Kai Zou,Yuan Xue,Anton van den Hengel

VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search

icon1

Computer Vision and Pattern Recognition (cs.CV)

icon2

Yiming Jia,Jiachen Li,Xiang Yue,Bo Li,Ping Nie,Kai Zou,Wenhu Chen

October 08 2024

Enhancing SPARQL Generation by Triplet-order-sensitive Pre-training

icon1

Information Retrieval (cs.IR)

icon2

Chang Su,Jiexing Qi,He Yan,Kai Zou,Zhouhan Lin

January 28 2024

A New Dataset and Method for Creativity Assessment Using the Alternate Uses Task

icon1

Communications in Computer and Information Science

icon2

Luning Sun, Hongyi Gu, Rebecca Myers and Zheng Yuan

January 11 2024

Transform-Equivariant Consistency Learning for Temporal Sentence Grounding

icon1

ACM Transactions on Multimedia Computing

icon2

Daizong Liu, Xiaoye Qu, Jianfeng Dong, Pan Zhou, Zichuan Xu, Haozhao Wang, Xing Di, Weining Lu and Yu Cheng

ProS: Facial Omni-Representation Learning via Prototype-Based Self-Distillation

icon1

Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)

icon2

Xing Di, Yiyu Zheng, Xiaoming Liu and Yu Cheng

You Are Catching My Attention: Are Vision Transformers Bad Learners under Backdoor Attacks?

icon1

2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)

icon2

Zenghui Yuan, Pan Zhou, Kai Zou and Yu Cheng

Annotations Are Not All You Need: A Cross-modal Knowledge Transfer Network for Unsupervised Temporal Sentence Grounding

icon1

Association for Computational Linguistics

icon2

Xiang Fang, Daizong Liu, Wanlong Fang, Pan Zhou, Yu Cheng, Keke Tang and Kai Zou

October 27 2023

Filling the Information Gap between Video and Query for Language-Driven Moment Retrieval

icon1

MM '23: Proceedings of the 31st ACM International Conference on Multimedia

icon2

Daizong Liu, Xiaoye Qu, Jianfeng Dong, Guoshun Nan, Pan Zhou, Zichuan Xu, Lixing Chen, He Yan and Yu Cheng

October 20 2023

Evaluation Metrics in the Era of GPT-4: Reliably Evaluating Large Language Models on Sequence to Sequence Tasks

icon1

Computation and Language (cs.CL)

icon2

Andrea Sottana, Bin Liang, Kai Zou and Zheng Yuan

January 05, 2023

Hypotheses Tree Building for One-Shot Temporal Sentence Localization.

icon1

AAAI Conference on Artificial Intelligence (AAAI) 2023

icon2

Daizong Liu, Xiang Fang, Pan Zhou, Xing Di, Weining Lu and Yu Cheng.

January 02, 2023

Rethinking the Video Sampling and Reasoning Strategies for Temporal Sentence Grounding.

icon1

Empirical Methods in Natural Language Processing (EMNLP) 2022

icon2

Jiahao Zhu, Daizong Liu, Pan Zhou, Xing Di, Yu Cheng, Song Yang, Wenzheng Xu, Zichuan Xu, Yao Wan, Lichao Sun and Zeyu Xiong.

M³ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task Learning with Model-Accelerator Co-design

icon1

Advances in Neural Information Processing Systems

icon2

Hanxue Liang, Zhiwen Fan, Rishov Sarkar, Ziyu Jiang, Tianlong Chen, Kai Zou, Yu Cheng, Cong Hao and Zhangyang Wang

October 12, 2022

Local Byte Fusion for Neural Machine Translation

icon1

Computation and Language (cs.CL); Artificial Intelligence (cs.AI)

icon2

Makesh Narsimhan Sreedhar, Xiangpeng Wan, Yu Cheng and Junjie Hu

RASAT: Integrating Relational Structures into Pretrained Seq2Seq Model for Text-to-SQL.

icon1

Empirical Methods in Natural Language Processing (EMNLP) 2022

icon2

Jiexing Qi, Jingyao Tang, Ziwei He, Xiangpeng Wan, Yu Cheng, Chenghu Zhou, Xinbing Wang, Quanshi Zhang and Zhouhan Lin.

Backdoor Attacks on Crowd Counting.

icon1

ACM International Conference on Multimedia (MM) 2022

icon2

Yuhua Sun, Tailai Zhang, Pan Zhou, Zichuan Xu, Xing Di and Yu Cheng.

Quantifying and alleviating political bias in language models

icon1

Soroush Vosoughi Artificial Intelligence, Volume 304

icon2

Yuhua Sun, Tailai Zhang, Pan Zhou, Zichuan Xu, Xing Di and Yu Cheng.

January 14, 2022

Unsupervised Temporal Video Grounding with Deep Semantic Clustering.

icon1

AAAI Conference on Artificial Intelligence (AAAI) 2022

icon2

Daizong Liu, Xiaoye Qu, Yinzhen Wang, Xing Di, Kai Zou, Yu Cheng, Zichuan Xu and Pan Zhou

January 03, 2022

Memory-Guided Semantic Learning Network for Temporal Sentence Grounding.

icon1

AAAI Conference on Artificial Intelligence (AAAI) 2022

icon2

Daizong Liu, Xiaoye Qu, Xing Di, Yu Cheng, Zichuan Xu and Pan Zhou

Few-shot text classification with triplet networks, data augmentation, and curriculum learning.

icon1

North American Chapter of the Association of Computational Linguistics (NAACL) 2021

icon2

Jason Wei, Chengyu Huang, Soroush Vosoughi, Yu Cheng and Shiqi Xu.

January 14, 2021

Text augmentation in a multi-task view.

icon1

European Chapter of the Association of Computational Linguistics (EACL) 2021

icon2

Jason Wei, Chengyu Huang, Shiqi Xu and Soroush Vosoughi.

January 14, 2021

Mitigating political bias in language models through reinforced calibration.

icon1

AAAI Conference on artificial intelligence (AAAI) 2021

icon2

Ruibo Liu , Chenyan Jia, Jason Wei, Guangxuan Xu, Lili Wang and Soroush Vosoughi.

An empirical survey of unsupervised text representation methods on twitter data.

icon1

Empirical Methods in Natural Language Processing (EMNLP) 2020

icon2

Lili Wang, Chongyang Gao, Jason Wei, Weicheng Ma, Ruibo Liu and Soroush Vosoughi.

What Are People Asking About COVID-19? A Question Classification Dataset

icon1

Proceedings of the 1st Workshop on NLP for COVID-19 at ACL 2020

icon2

Jerry Wei, Chengyu Huang, Soroush Vosoughi and Jason Wei

EDA: Easy Data Augmentation techniques for boosting performance on text classification tasks.

icon1

Empirical Conference on Natural Language Processing (EMNLP) 2019

icon2

Jason Wei and Kai Zou.

Transforming humanity through the power of AI