KAIST LK Lab - Publications

2026

Dynamics Reveals Structure: Challenging the Linear Propagation Assumption

Hoyeon Chang, Bálint Mucsányi, Seong Joon Oh
ICML 2026 Spotlight
[paper]

Early Decisions Matter: Proximity Bias and Initial Trajectory Shaping in Non-Autoregressive Diffusion Language Models

Jiyeon Kim, Sungik Choi, Yongrae Jo, Moontae Lee, Minjoon Seo
ICML 2026
[paper]

Q-Flow: Stable and Expressive Reinforcement Learning with Flow-Based Policy

JaeHyeok Doo, Byeongguk Jeon, Seonghyeon Ye, Kimin Lee, Minjoon Seo
ICML 2026
[paper]

Intrinsic Task Symmetry Drives Generalization in Algorithmic Tasks

Hyeonbin Hwang, Yeachan Park
ICML 2026
[paper]

Decentralized Instruction Tuning: Conflict-Aware Splitting and Weight Merging

Minsik Choi*, Geewook Kim*
ICML 2026

Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams

Jiyeon Kim*, Hyunji Lee*, Dylan Zhou*, Sue Hyun Park, Seunghyun Yoon, Trung Bui, Franck Dernoncourt, Sungmin Cha, Minjoon Seo
ACL 2026
[paper]

The CoT Encyclopedia: Analyzing, Predicting, and Controlling how a Reasoning Model will Think

Seongyun Lee, Seungone Kim, Minju Seo, Yongrae Jo, Dongyoung Go, Hyeonbin Hwang, Jinho Park, Xiang Yue, Sean Welleck, Graham Neubig, Moontae Lee, Minjoon Seo
ICLR 2026
[paper]

Characterizing Pattern Matching and Its Limits on Compositional Task Structures

Hoyeon Chang, Jinho Park, Hanseul Cho, Sohee Yang, Miyoung Ko, Hyeonbin Hwang, Seungpil Won, Dohaeng Lee, Youbin Ahn, Minjoon Seo
ICLR 2026
[paper]

TSLM: Tree-Structured Language Modeling for Divergent Thinking

Doyoung Kim, Jaehyeok Doo, Minjoon Seo
ICLR 2026
[paper]

2025

Reasoning Models Better Express Their Confidence

Dongkeun Yoon, Seungone Kim, Sohee Yang, Sunkyoung Kim, Soyeon Kim, Yongil Kim, Eunbi Choi, Yireun Kim, Minjoon Seo
NeurIPS 2025
[paper]

Dynamic VLM-Guided Negative Prompting for Diffusion Models

Hoyeon Chang, Seungjin Kim, Yoonseok Choi
NeurIPS 2025 Workshop
[paper]

DynamixSFT: Dynamic Mixture Optimization of Instruction Tuning Collections

Haebin Shin, Lei Ji, Xiao Liu, Zhiwei Yu, Hyunwoo Yoo, Qi Chen, Yeyun Gong
ACL 2026 Findings
[paper]

Overcoming Vocabulary Mismatch: Vocabulary-agnostic Teacher Guided Language Modeling

Haebin Shin, Lei Ji, Xiao Liu, Yeyun Gong
ICML 2025
[paper]

Generative Prompt Internalization

Haebin Shin, Lei Ji, Yeyun Gong, Sungdong Kim, Eunbi Choi, Minjoon Seo
NAACL 2025
[paper]

The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models

Seungone Kim, Juyoung Suk, Ji Yong Cho, Shayne Longpre, Chaeeun Kim, Dongkeun Yoon, Guijin Son, Yejin Cho, Sheikh Shafayat, Jinheon Baek, Sue Hyun Park, Hyeonbin Hwang, Jinkyung Jo, Hyowon Cho, Haebin Shin, Seongyun Lee, Hanseok Oh, Noah Lee, Namgyu Ho, Se June Joo, Miyoung Ko, Yoonjoo Lee, Hyungjoo Chae, Jamin Shin, Joel Jang, Seonghyeon Ye, Bill Yuchen Lin, Sean Welleck, Graham Neubig, Moontae Lee, Kyungjae Lee, Minjoon Seo
NAACL 2025 (Best Paper Award)
[paper]

CORG: Generating Answers from Complex, Interrelated Contexts

Hyunji Lee, Franck Dernoncourt, Trung Bui, Seunghyun Yoon
NAACL 2025
[paper]

KMMLU: Measuring Massive Multitask Language Understanding in Korean

Guijin Son, Hanwool Lee, Sungdong Kim, Seungone Kim, Niklas Muennighoff, Taekyoon Choi, Cheonbok Park, Kang Min Yoo, Stella Biderman
NAACL 2025
[paper]

Evaluating Multimodal Generative AI with Korean Educational Standards

Sanghee Park, Geewook Kim
NAACL 2025
[paper]

Ask Optimal Questions: Aligning Large Language Models with Retriever's Preference in Conversation

Chanwoong Yoon*, Gangwoo Kim*, Byeongguk Jeon, Sungdong Kim, Yohan Jo, Jaewoo Kang
NAACL 2025 Findings
[paper]

Latent action pretraining from videos

Seonghyeon Ye, Joel Jang, Byeongguk Jeon, Sejune Joo, Jianwei Yang, Baolin Peng, Ajay Mandlekar, Reuben Tan, Yu-Wei Chao, Bill Yuchen Lin, Lars Liden, Kimin Lee, Jianfeng Gao, Luke Zettlemoyer, Dieter Fox, Minjoon Seo
ICLR 2025
[paper]

How Does Vision-Language Adaptation Impact the Safety of Vision Language Models?

Seongyun Lee, Geewook Kim, Jiyeon Kim, Hyunji Lee, Hoyeon Chang, Sue Hyun Park, Minjoon Seo
ICLR 2025
[paper]

Knowledge Entropy Decay during Language Model Pretraining Hinders New Knowledge Acquisition

Jiyeon Kim, Hyunji Lee, Hyowon Cho, Joel Jang, Hyeonbin Hwang, Seungpil Won, Youbin Ahn, Dohaeng Lee, Minjoon Seo
ICLR 2025 Oral
[paper]

RouterRetriever: Routing over a Mixture of Expert Embedding Models

Hyunji Lee, Luca Soldaini, Arman Cohan, Minjoon Seo, Kyle Lo
AAAI 2025
[paper]

Towards Reliable and Practical Phishing Detection

Hyowon Cho, Minjoon Seo
NAACL Industry 2025

2024

How Do Large Language Models Acquire Factual Knowledge During Pretraining?

Hoyeon Chang, Jinho Park, Seonghyeon Ye, Sohee Yang, Youngkyung Seo, Du-Seong Chang, Minjoon Seo
NeurIPS 2024
[paper]

Aligning to Thousands of Preferences via System Message Generalization

Seongyun Lee, Sue Hyun Park, Seungone Kim, Minjoon Seo
NeurIPS 2024
[paper]

Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models

Seungone Kim, Juyoung Suk, Shayne Longpre, Bill Yuchen Lin, Jamin Shin, Sean Welleck, Graham Neubig, Moontae Lee, Kyungjae Lee, Minjoon Seo
EMNLP 2024
[paper]

Hierarchical Deconstruction of LLM Reasoning: A Graph-Based Framework for Analyzing Knowledge Utilization

Miyoung Ko, Sue Hyun Park, Joonsuk Park, Minjoon Seo
EMNLP 2024
[paper]

Exploring the Practicality of Generative Retrieval on Dynamic Corpora

Soyoung Yoon, Chaeeun Kim, Hyunji Lee, Joel Jang, Sohee Yang, Minjoon Seo
EMNLP 2024
[paper]

On Efficient Language and Vision Assistants for Visually-Situated Natural Language Understanding: What Matters in Reading and Reasoning

Geewook Kim, Minjoon Seo
EMNLP 2024
[paper]

Rethinking the Role of Proxy Rewards in Language Model Alignment

Sungdong Kim, Minjoon Seo
EMNLP 2024
[paper]

Instruction Matters, a Simple yet Effective Task Selection Approach in Instruction Tuning for Specific Tasks

Changho Lee, Janghoon Han, Seonghyeon Ye, Stanley Jungkyu Choi, Honglak Lee, Kyunghoon Bae
EMNLP 2024
[paper]

Self-Explore to Avoid the Pit: Improving the Reasoning Capabilities of Language Models with Fine-grained Rewards

Hyeonbin Hwang, Doyoung Kim, Seungone Kim, Seonghyeon Ye, Minjoon Seo
EMNLP 2024 Findings
[paper]

Semiparametric Token-Sequence Co-Supervision

Hyunji Lee, Doyoung Kim, Jihoon Jun, Sejune Joo, Joel Jang, Kyoung-Woon On, Minjoon Seo
ACL 2024
[paper]

LangBridge: Multilingual Reasoning Without Multilingual Supervision

Dongkeun Yoon, Joel Jang, Sungdong Kim, Seungone Kim, Sheikh Shafayat, Minjoon Seo
ACL 2024
[paper]

Aligning Large Language Models by On-Policy Self-Judgment

Sangkyu Lee, Sungdong Kim, Ashkan Yousefpour, Minjoon Seo, Kang Min Yoo, Youngjae Yu
ACL 2024
[paper]

Prometheus-Vision: Vision-Language Model as a Judge for Fine-Grained Evaluation

Seongyun Lee, Seungone Kim, Sue Hyun Park, Geewook Kim, Minjoon Seo
ACL 2024 Findings
[paper] [code]

Multi-Task Inference: Can Large Language Models Follow Multiple Instructions at Once?

Guijin Son, Sangwon Baek, Sangdae Nam, Ilgyun Jeong, Seungone Kim
ACL 2024
[paper]

ListT5: Listwise Reranking with Fusion-in-Decoder Improves Zero-shot Retrieval

Soyoung Yoon, Eunbi Choi, Jiyeon Kim, Hyeongu Yun, Yireun Kim, Seung-won Hwang
ACL 2024
[paper]

REPLUG: Retrieval-Augmented Black-Box Language Models

Weijia Shi, Sewon Min, Michihiro Yasunaga, Minjoon Seo, Rich James, Mike Lewis, Luke Zettlemoyer, Wen-tau Yih
NAACL 2024
[paper]

Volcano: Mitigating Multimodal Hallucination through Self-Feedback Guided Revision

Seongyun Lee, Sue Hyun Park, Yongrae Jo, Minjoon Seo
NAACL 2024
[paper]

KTRL+F: Knowledge-Augmented In-Document Search

Hanseok Oh, Haebin Shin, Miyoung Ko, Hyunji Lee, Minjoon Seo
NAACL 2024
[paper]

How Well Do Large Language Models Truly Ground?

Hyunji Lee, Sejune Joo, Chaeeun Kim, Joel Jang, Doyoung Kim, Kyoung-Woon On, Minjoon Seo
NAACL 2024
[paper]

Carpe diem: On the Evaluation of World Knowledge in Lifelong Language Models

Yujin Kim, Jaehong Yoon, Seonghyeon Ye, Sangmin Bae, Namgyu Ho, Sung Ju Hwang, Se-Young Yun
NAACL 2024
[paper]

CLIcK: A Benchmark Dataset of Cultural and Linguistic Intelligence in Korean

Eunsu Kim, Juyoung Suk, Philhoon Oh, Haneul Yoo, James Thorne, Alice Oh
LREC-COLING 2024
[paper]

INSTRUCTIR: A Benchmark for Instruction Following of Information Retrieval Models

Hanseok Oh, Hyunji Lee, Seonghyeon Ye, Haebin Shin, Hansol Jang, Changwook Jun, Minjoon Seo
arXiv 2024
[paper]

Improving Probability-based Prompt Selection Through Unified Evaluation and Analysis

Sohee Yang, Jonghyeon Kim, Joel Jang, Seonghyeon Ye, Hyunji Lee, Minjoon Seo
TACL 2024
[paper]

FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets

Seonghyeon Ye, Doyoung Kim, Sungdong Kim, Hyeonbin Hwang, Seungone Kim, Yongrae Jo, James Thorne, Juho Kim, Minjoon Seo
ICLR 2024 Spotlight
[paper] [code]

Prometheus: Inducing Fine-grained Evaluation Capability in Language Models

Seungone Kim, Jamin Shin, Yejin Cho, Joel Jang, Shayne Longpre, Hwaran Lee, Sangdoo Yun, Seongjin Shin, Sungdong Kim, James Thorne, Minjoon Seo
ICLR 2024
[paper] [code]

SuRe: Improving Open-domain Question Answering of LLMs via Summarized Retrieval

Jaehyung Kim, Jaehyun Nam, Sangwoo Mo, Jongjin Park, Sang-Woo Lee, Minjoon Seo, Jung-Woo Ha and Jinwoo Shin
ICLR 2024
[paper]

Investigating the Effectiveness of Task-Agnostic Prefix Prompt for Instruction Following

Seonghyeon Ye, Hyeonbin Hwang, Sohee Yang, Hyeongu Yun, Yireun Kim, Minjoon Seo
AAAI 2024
[paper] [code]

2023

Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in Dense Encoders

Hyunji Lee, Luca Soldaini, Arman Cohan, Minjoon Seo, Kyle Lo
arXiv 2023
[paper]

The CoT Collection: Improving Zero-shot and Few-shot Learning of Language Models via Chain-of-Thought Fine-Tuning

Seungone Kim, Se June Joo, Doyoung Kim, Joel Jang, Seonghyeon Ye, Jamin Shin, Minjoon Seo
EMNLP 2023
[paper]

Aligning Large Language Models through Synthetic Feedback

Sungdong Kim, Sanghwan Bae, Jamin Shin, Soyoung Kang, Donghyun Kwak, Kang Min Yoo, Minjoon Seo
EMNLP 2023
[paper]

Tree of Clarifications: Answering Ambiguous Questions with Retrieval-Augmented Large Language Models

Gangwoo Kim, Sungdong Kim, Byeongguk Jeon, Joonsuk Park, Jaewoo Kang
EMNLP 2023

Cream : Visually-Situated Natural Language Understanding with Contrastive Reading Model and Frozen Large Language Models

Geewook Kim, Hodong Lee, Daehee Kim, Haeji Jung, Sanghee Park, Yoonsik Kim, Sangdoo Yun, Taeho Kil, Bado Lee, Seunghyun Park
EMNLP 2023
[paper]

Efficiently Enhancing Zero-Shot Performance of Instruction Following Model via Retrieval of Soft Prompt

Seonghyeon Ye, Joel Jang, Doyoung Kim, Yongrae Jo, Minjoon Seo
EMNLP 2023 Findings
[paper] [code]

An Integrated Search System for Korea Weather Data

Jinkyung Jo, Dayeon Ki, Soyoung Yoon and Minjoon Seo
EMNLP 2023 Industry Track

A Bayesian Perspective On Training Data Attribution

Elisa Nguyen, Minjoon Seo, Seong Joon Oh
NeurIPS 2023
[paper]

Zero-Shot Dense Video Captioning by Jointly Optimizing Text and Moment

Yongrae Jo, Seongyun Lee, Aiden SJ Lee, Hyunji Lee, Hanseok Oh, Minjoon Seo
arXiv 2023
[paper]

Effortless Integration of Memory Management into Open-Domain Conversation Systems

Eunbi Choi, Kyoung-Woon On, Gunsoo Han, Sungwoong Kim, Daniel Wontae Nam, Daejin Jo, Seung Eun Rho, Taehwan Kwon, Minjoon Seo
arXiv 2023
[paper]

Gradient Ascent Post-training Enhances Language Model Generalization

Dongkeun Yoon*, Joel Jang*, Sungdong Kim, Minjoon Seo
ACL 2023

Towards standardizing Korean Grammatical Error Correction: Datasets and Annotation

Soyoung Yoon, Sungjoon Park, Gyuwan Kim, Junhee Cho, Kihyo Park, Gyu Tae Kim, Minjoon Seo, Alice Oh
ACL 2023
[paper]

Knowledge Unlearning for Mitigating Privacy Risks in Language Models

Joel Jang, Dongkeun Yoon, Sohee Yang, Sungmin Cha, Moontae Lee, Lajanugen Logeswaran, Minjoon Seo
ACL 2023
[paper]

Two Examples are Better than One: Context Regularization for Gradient-based Prompt Tuning

Hyeonmin Ha, Soyoung Jung, Jinsol Park, Minjoon Seo, Seung-won Hwang and Byung-Gon Chun
ACL 2023 Findings

Nonparametric Decoding for Generative Retrieval

Hyunji Lee, Jaeyoung Kim, Hoyeon Chang, Hanseok Oh, Sohee Yang, Vlad Karpukhin, Yi Lu, Minjoon Seo
ACL 2023 Findings
[paper]

Fixed Input Parameterization for Efficient Prompting

Eunbi Choi, Yongrae Jo, Joel Jang, Joonwon Jang, Minjoon Seo
ACL 2023 Findings
[paper]

Comparing and Contrasting Claims on Contentious Issues

Miyoung Ko, Ingyu Seong, Hwaran Lee, Joonsuk Park, Minsuk Chang, Minjoon Seo
ACL 2023 Findings
[paper]

Exploring the Benefits of Training Expert Language Models over Instruction Tuning

Joel Jang, Seungone Kim, Seonghyeon Ye, Doyoung Kim, Lajanugen Logeswaran, Moontae Lee, Kyungjae Lee, Minjoon Seo
ICML 2023
[paper] [code]

Semi-Parametric Video-Grounded Text Generation

Sungdong Kim, Jin-Hwa Kim, Jiyoung Lee, Minjoon Seo
arXiv 2023
[paper]

Guess the Instruction! Flipped Learning Makes Language Models Stronger Zero-Shot Learners

Seonghyeon Ye, Doyoung Kim, Joel Jang, Joongbo Shin, Minjoon Seo
ICLR 2023
[paper] [code] [demo]

2022

Can Large Language Models Truly Understand Prompts? A Case Study with Negated Prompts

Joel Jang, Seonghyeon Ye, Minjoon Seo
NeurIPS 2022 Workshop on Transfer Learning for NLP
[paper]

Keep Me Updated! Memory Management in Long-term Conversations

Sanghwan Bae, Donghyun Kwak, Soyoung Kang, Min Young Lee, Sungdong Kim, Yuin Jeong, Hyeri Kim, Sang-Woo Lee, Woomyoung Park and Nako Sung
EMNLP 2022 Findings
[paper]

Generating Information-Seeking Conversations from Unlabeled Documents

Gangwoo Kim*, Sungdong Kim*, Kang Min Yoo, Jaewoo Kang
EMNLP 2022
[paper]

Saving Dense Retriever from Shortcut Dependency in Conversational Search

Sungdong Kim, Gangwoo Kim
EMNLP 2022
[paper]

Generative Multi-hop Retrieval

Hyunji Lee, Sohee Yang, Hanseok Oh, Minjoon Seo
EMNLP 2022
[paper]

TemporalWiki: A Lifelong Benchmark for Training and Evaluating Ever-Evolving Language Models

Joel Jang, Seonghyeon Ye, Changho Lee, Sohee Yang, Minjoon Seo
EMNLP 2022
[paper]

A Multi-Task Benchmark for Korean Legal Language Understanding and Judgement Prediction

Wonseok Hwang, Dongjun Lee, Kyoungyeon Cho, Hanuhl Lee, Minjoon Seo
NeurIPS 2022 Datasets and Benchmarks
[paper]

EHRSQL: A Practical Text-to-SQL Benchmark for Electronic Health Records

Gyubok Lee, Hyeonji Hwang, Seongsu Bae, Yeonsu Kwon, Woncheol Shin, Seongjun Yang, Minjoon Seo, Jong-Yeup Kim, Edward Choi
NeurIPS 2022 Datasets and Benchmarks
[paper]

Towards Continual Knowledge Learning of Language Models

Joel Jang, Seonghyeon Ye, Sohee Yang, Joongbo Shin, Janghoon Han, Gyeonghun Kim, Stanley Jungkyu Choi, Minjoon Seo
ICLR 2022
[paper]

2021

Cost-effective End-to-end Information Extraction for Semi-structured Document Images

Wonseok Hwang, Hyunji Lee, Jinyeong Lim, Geewook Kim, Minjoon Seo
EMNLP 2021
[paper]

ViSeRet: A simple yet effective approach to moment retrieval via fine-grained video segmentation

Aiden Seungjoon Lee (Twelve Labs), Hanseok Oh, Minjoon Seo
ICCV 2021 Workshop
[paper]

Label Embedding for Chinese Grapheme-to-Phoneme Conversion

Eunbi Choi, Hwayeon Kim, Jongwhan Kim, Jaemin Kim
Interspeech 2021
[paper]

Spatial Dependency Parsing for Semi-Structured Document Information Extraction

Wonseok Hwang (Naver), Jinyeong Lim (Naver), Seunghyun Park (Naver), Sohee Yang, Minjoon Seo
ACL 2021 Findings
[paper]

SSMix: Saliency-based Span Mixup for Text Classification

Soyoung Yoon, Gyuwan Kim (Naver), Kyumin Park (Naver)
ACL 2021 Findings
[paper]

Designing a Minimal Retrieve-and-Read System for Open-Domain Question Answering

Sohee Yang, Minjoon Seo
NAACL 2021
[paper]