ETS: Open Vocabulary Electroencephalography-To-Text Decoding and Sentiment Classification

📄 arXiv: 2506.14783v1 📥 PDF

作者: Mohamed Masry, Mohamed Amen, Mohamed Elzyat, Mohamed Hamed, Norhan Magdy, Maram Khaled

分类: cs.LG, cs.CL, cs.HC

发布日期: 2025-05-26

备注: Graduation project report submitted at Faculty of Computer Science and Artificial Intelligence, Helwan University


💡 一句话要点

提出ETS框架以解决开放词汇脑电图到文本解码问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 脑电图 开放词汇 情感分类 多模态融合 自然语言处理 深度学习

📋 核心要点

  1. 现有方法在开放词汇场景中面临噪声和变异性问题,导致解码效果不佳。
  2. ETS框架通过结合EEG和眼动追踪数据,提出了一种新的开放词汇文本生成和情感分类方法。
  3. 实验结果显示,模型在EEG到文本解码的BLEU和Rouge评分上表现优越,F1分数提升达10%。

📝 摘要(中文)

利用非侵入性脑电图(EEG)从脑活动解码自然语言仍然是神经科学和机器学习中的一大挑战,尤其是在开放词汇场景中,传统方法在噪声和变异性方面表现不佳。尽管以往研究在小型封闭词汇上取得了高准确率,但在开放词汇上仍然存在困难。本研究提出了ETS框架,结合EEG与同步眼动追踪数据,解决开放词汇文本生成和感知语言的情感分类两个关键任务。我们的模型在EEG到文本解码的BLEU和Rouge评分上表现优越,在基于EEG的三元情感分类中F1分数提升了10%,显著超越了监督基线。此外,我们展示了该模型能够处理来自不同受试者和来源的数据,显示出高性能开放词汇EEG到文本系统的巨大潜力。

🔬 方法详解

问题定义:本研究旨在解决从脑电图(EEG)解码开放词汇自然语言的挑战。现有方法在小型封闭词汇上表现良好,但在开放词汇场景中,由于噪声和个体差异,解码效果显著下降。

核心思路:论文提出的ETS框架通过结合EEG信号和同步的眼动追踪数据,旨在提高开放词汇文本生成和情感分类的准确性。这种多模态融合方法能够有效利用不同数据源的信息,增强模型的鲁棒性。

技术框架:ETS框架主要包括两个模块:EEG信号处理模块和眼动追踪数据集成模块。EEG信号经过预处理后,与眼动追踪数据同步输入到深度学习模型中,以实现文本生成和情感分类。

关键创新:本研究的关键创新在于首次将EEG与眼动追踪数据结合用于开放词汇场景,显著提升了模型在复杂环境下的解码能力。这一方法与传统的单一EEG解码方法有本质区别,能够更好地处理多样化的输入数据。

关键设计:模型采用了特定的损失函数以优化文本生成和情感分类的性能,同时在网络结构上设计了多层卷积和循环神经网络,以捕捉EEG信号中的时序特征和语义信息。

📊 实验亮点

实验结果表明,ETS框架在EEG到文本解码的BLEU和Rouge评分上表现优越,F1分数在EEG基础的三元情感分类中提升了10%。这些结果显著超越了现有的监督基线,展示了该模型在开放词汇场景中的强大能力。

🎯 应用场景

该研究的潜在应用领域包括脑机接口、情感计算和人机交互等。通过实现开放词汇的EEG到文本解码,能够为残疾人士提供更自然的沟通方式,同时在心理健康监测和情感分析中具有重要价值。未来,该技术有望推动智能助手和虚拟现实等领域的发展。

📄 摘要(原文)

Decoding natural language from brain activity using non-invasive electroencephalography (EEG) remains a significant challenge in neuroscience and machine learning, particularly for open-vocabulary scenarios where traditional methods struggle with noise and variability. Previous studies have achieved high accuracy on small-closed vocabularies, but it still struggles on open vocabularies. In this study, we propose ETS, a framework that integrates EEG with synchronized eye-tracking data to address two critical tasks: (1) open-vocabulary text generation and (2) sentiment classification of perceived language. Our model achieves a superior performance on BLEU and Rouge score for EEG-To-Text decoding and up to 10% F1 score on EEG-based ternary sentiment classification, which significantly outperforms supervised baselines. Furthermore, we show that our proposed model can handle data from various subjects and sources, showing great potential for high performance open vocabulary eeg-to-text system.