
科技日報記者 張夢然
《自然》4日報道了一個開源語言模型“OpenScholar”,其在準確進行文獻綜述方面可超越商用大語言模型。比如,在該研究開展的實驗中,GPT4o會在78%至90%的情況下出現引文幻覺,而“OpenScholar”的引文準確率卻與人類專家相仿。雖然仍需進一步優化,但該工具有望幫助科學家處理復雜且日益繁重的科學文獻綜述任務。
科學文獻綜述對于支持循證決策、微調科學過程和引導新發現都很重要。然而,文獻發表數量的增長使研究人員很難掌握全部資訊。商用大語言模型可以提供協助,但卻很容易出錯,如歸因能力有限和引文幻覺。
為了生成準確、全面、透明的科學文獻綜述,美國華盛頓大學團隊推出了“OpenScholar”。該模型是專為科研任務設計的檢索增強語言模型。其他系統也用過這個框架,但研究團隊將其與一個包含4500萬篇最新開放獲取科研論文的專業數據庫以及一個自我評估機制相結合,從而優化了其輸出。
研究團隊還創建了名為“ScholarQABench”的基準工具來評估文獻綜述的自動化。測試顯示,“OpenScholar”的準確率比GPT4o和PaperQA2(一個文獻綜述工具)這類現有系統分別高出6.1%和5.5%。此外,“OpenScholar”生成的答案,在50%到70%的情況下比專家注釋器的答案更有用。
團隊總結道,以上結果和引文幻覺大幅下降證明了“OpenScholar”有望支持和推動進一步研究工作。但他們指出,該系統仍有局限性并強調基于語言模型的系統無法使科學文獻綜述完全自動化。他們向學界同時開放“ScholarQABench”和“OpenScholar”,以鼓勵進一步研究和優化。
總編輯圈點
科研人員每天尋找有用的論文,相當于在信息的“海洋”里撈“珍珠”。但現在海水暴漲,真正有用之物和以假亂真之物一起浮上了水面。以前大家用的是通用的“萬能撈網”,比如GPT。但它的網眼太大,撈上來的有可能是“塑料珠子”,也就是假的或錯誤的引文,需花大量時間去挑,還可能會被誤導。而這個“OpenScholar”,是一個專門為這片科學海洋設計的網。它不追求萬能,而追求可靠,而且所有科學家都能一起改進這個工具,讓它更準確。這有望把科研人員從繁瑣、易錯的文獻苦海中部分解放出來,讓他們能把寶貴精力用在真正的思考和發現上。這正是科學工具走向可信化的重要一步。