Vibe Doctor

Vibe Doctor：讓 AI 訪談你，自己長出一個論文初評工具

不用先背 Prompt Engineering。讓 Claude AI 先訪談你，再把醫師的評讀標準整理成一個可重複使用的論文初評工具。

先交代一下系列脈絡。前面三篇走的是「教」這條線，把一份講稿丟進 NotebookLM 換成簡報與播客、用 ChatGPT＋Codex 把水腫回顧做成 PPT、再用 Claude Design 做同一份簡報的對照。那是把已經有的內容換裝。

從這篇起，我們轉進「研」這條線。第一站要處理的，是醫師最重複、最耗神經、卻又最需要專業判斷的一件事：讀一篇論文，快速判斷它可不可信、能不能用在病人身上。 我們不直接教你「怎麼讀」，而是教你怎麼做一個助手，每次都用同一套標準替你把第一輪做完。

AI 年代，很多人大概都聽過 Prompt Engineering 這個詞。再往後，又開始有人談 Context Engineering、Harness Engineering，甚至把工作流裡不斷回饋、修正、驗證的部分稱為 Loop Engineering。

名詞越來越多，問題也越來越實際：繁忙醫師在教學、研究、門診與病房工作之外，到底要怎麼掌握這些東西？如果只是想讓 AI 幫忙做一篇醫學論文初評，真的需要先變成提示詞工程師嗎？

傳統 Prompt Engineering 會說：你不能只是說「請幫我評論這篇論文」。你得交代研究類型、PICO、偏差風險、統計方法、效應量、臨床適用性、利益衝突、輸出格式，還要提醒 AI 哪些地方不能假裝查過。

可是，誰會在日常聊天時一次記得這麼多面向？我們通常是先想到幾件事，後面才補充、修正、追問。這篇要示範的，剛好是反過來：你一句提示詞語法都不用寫，照樣能做出一個可重複使用、而且相當講究的論文初評工具。 你只需要會一件每天都在做的事：回答問題。

一、「你得先變成提示詞工程師」是個誤會

很多人對 AI 卻步，是因為網路上把「寫好提示詞」講得像一門要修煉的功夫：要角色設定、要思維鏈、要範例、要輸出格式……看完只覺得，這是工程師的事，不是臨床醫師的事。

但其實你要的東西很單純：一個每次拿到新論文都能套用、輸出穩定、不會漏掉重點的初評提示詞。 與其自己從零拼湊這段文字，不如反過來——讓懂這件事的 AI 來訪談你，把你心裡那套「好論文長什麼樣」問出來，再幫你寫成提示詞。

你出的是專業判斷；AI 出的是把它整理成工具的力氣。這就是這篇的方法。

二、方法：讓 AI 先問你「該涵蓋哪些面向」

整個手法只有三步，核心是翻轉：不是你去想提示詞，而是 AI 先問你。

第一步，先別急著要它寫提示詞，而是問它：「一個好用的『醫學論文初評提示詞』，通常應該涵蓋哪些面向？」

這篇文章我們先把這個問題輸入到 Claude AI 裡面實測，看看它會怎麼回答。結果如截圖所示，它列出的不是幾句空泛建議，而是一整組論文初評該涵蓋的面向：

論文基本辨識與分類：這是什麼論文？
研究問題與假設 PICO：它想回答什麼？
研究設計與方法品質：做法可不可信？
偏差風險評估：結果可能被什麼扭曲？
統計方法與分析：數字算得對不對？
結果與效應量解讀：結果多大、多確定？
結論合理性與過度詮釋：作者有沒有講過頭？
外在效度與臨床適用性：對我的病人有沒有用？
利益衝突與資金來源：有沒有立場污染？
整體評等與後續行動：我該怎麼用這篇？

值得停一下：這份清單是 AI 自己提出的，我們一個字都還沒指定。換句話說，「一個好的論文初評該檢查什麼」，它本來就知道——你要做的只是告訴它，在這些面向裡，你個人最在意什麼、要做到多細。

三、實跑三步驟：讓它一題一題訪談你

⚠️ 練習素材是合成論文。 接下來的實測使用一篇虛構的腎臟科合成論文，不是真實研究、沒有真實病人，也不可作為臨床證據或醫療決策依據。下載連結會放在 §六，方便你對照實跑結果。

接著只要請它：「就用你列的這十個面向，一題一題訪談我，一次只問一個，問完等我回答再問下一個，不要自己幫我預設答案。」

同樣的，我們把這個要求輸入到 Claude AI 裡面。結果它真的開始當訪談者了，這一步其實很令人驚訝：它不是直接替醫師下結論，而是先把醫師心裡的標準問出來。

第一題，它問研究類型：「你拿到的論文大多集中在某幾種類型，還是什麼都可能遇到？要不要內建『自動判斷類型、再切換對應評讀框架』的邏輯？」

你只要照實回答——我大多讀 RCT 和統合分析，但也常遇到世代研究、registry，所以希望它先自動判斷類型、預設以介入型 RCT 為主。它收下，接著問 PICO、問偏差評估要多正式、問統計與效應量、問適用性與利益衝突……

過程中它還會幫你做兩件你自己未必會做的事：

主動點出陷阱。問 PICO 時，它提醒我要不要固定檢查「替代指標（surrogate）」和「複合終點（composite）」——這正是論文摘要最容易誤導人的兩個地方。
守住誠實邊界。當我說想比對試驗註冊資料，它老實說「AI 沒辦法單從論文內文確認這件事」，建議改成由提示詞提醒你去查、並標成「需人工查證」，而不是讓它自己假裝查過。

你可能會發現一個落差：剛剛不是列了十個面向，怎麼五輪就問完？因為我請它「盡量五到六輪問完」，它就把關係相近的面向併在一起問：

輪次	AI 併著問的面向
第 1 輪	面向 1：研究類型
第 2 輪	面向 2：PICO／終點
第 3 輪	面向 3＋4：設計品質＋偏差風險
第 4 輪	面向 5＋6＋7：統計＋效應量＋結論詮釋
第 5 輪	面向 8＋9＋10：適用性＋利益衝突＋整體評等

所以「十個面向」和「五輪問完」並不矛盾——一個講的是檢查的面向數，一個講的是問答的回合數。五輪走完，它把我的回答整理成一份完整、結構清楚的提示詞：

接著我們請 Claude AI 依訪談內容產出成品 prompt。從頭到尾，我沒有寫任何一句提示詞語法，只是回答了幾個臨床上本來就有定見的問題。

📄 想看完整的五輪問答——每一題、每一輪回答，到最後產出的提示詞全文？下載完整訪談對話逐字稿 PDF（6 頁，合成示範用，內含揭露聲明）。

四、收斂點：它問出來的，就是「六要素」

如果你把它訪談的脈絡攤開，會發現它其實在替你補齊一個好提示詞的六個要素：

Role（角色）：要它扮演嚴謹的臨床流行病學與實證醫學評讀助手。

Context（情境）：你常讀哪類論文、最在意哪些判斷、預設要處理哪種研究設計。

Task（任務）：要它做初評，不是寫摘要，也不是替醫師做最後定論。

Constraints（限制）：不得臆測、不捏造、缺數據不硬湊、主要/次要/探索性終點不能混談。

Output format（輸出格式）：固定成 0–9 節架構，讓每次輸出都能掃讀、比對、補查。

Verification（查核）：凡無法從內文確認，一律標【需人工查證】，不要假裝查過外部資料庫。

更有意思的是，這套「自己長出來」的結構，跟實證醫學界既有的 critical appraisal 框架（PICO、outcome hierarchy、偏差工具、適用性、保守結論）幾乎是同一套。你不必去背它——只要讓 AI 訪談你，它自然會把你帶到那裡。

五、把提示詞「停進」Claude Project，變成常駐工具

訪談生出的提示詞，如果每次都要手動複製貼上，它還只是一段文句。更麻煩的是，幾週後你可能連它存在電腦哪個檔案裡都忘了。

所以第二步，是把這段提示詞變成一個可以重複利用的工具。我們這次用 Claude Project 示範：開一個新 Project，把訪談產出的提示詞、加上一段醫療安全與責任邊界，一起貼進 Project instructions。

這樣一來，等於讓這位副官正式編進船員：每次打開這個 Project，那套初評規則就已經在位。以後每拿到一篇新論文，把 PDF 附上、打一行「請依本專案的指示，對這篇論文做初步評讀」，常駐提示詞就會自動套用——不必每次重新喊它上來。

Claude Project 不是唯一能做這件事的地方。ChatGPT、Gemini 也有類似的常駐脈絡或自訂工具做法，我們後面會再介紹。這篇先把一件事做穩：讓論文初評 prompt 不再是一段容易遺失的文字，而是一個打開就能用的工作空間。

六、實測：用它跑一篇論文

為了說明這篇文章的概念，我們模擬書寫了一篇虛構的醫學論文。請注意，這篇醫學論文是教學用的合成素材，目的是讓讀者有一份可以公開體驗的測試材料；它不是真實研究，不可引用，也不可作為臨床證據。

你可以先下載這兩個版本對照：英文整合版是本次實跑使用的主檔，中文整合版方便讀者快速理解內容。

素材備妥，我們就讓這位副官跑第一輪。把英文版 PDF 附到 Claude AI 的「醫師論文初評助手」Project，只打一句話觸發：「請依本專案的指示，對我附上的這篇論文做初步評讀。」它依專案指示，跑出一份照固定 0–9 架構走的初評，每一節都替你把一類問題問完：

實際的輸出，開頭先聲明這是合成教學稿、不可當臨床證據，接著判定研究類型、拆 PICO、分層終點：

再往下看，才是讓人哇哦一聲的地方。Claude AI 沒有只給一段摘要，而是做了一個謹慎的臨床醫師會做、但很花時間的初步檢查：

它一眼指出主要終點「血壓達標」是個替代指標，不是硬終點——血壓達標率上升，不等於心、腎或存活結果改善。
它標出偏差的方向：開放標籤、結果評估者未盲，會讓效果偏向高估。
它把缺的東西老實標出來：全文沒有 power 計算說明 → 標【需人工查證】；合成稿未註冊 → 主要終點有無被改「無法核對」。
它自己算出 NNT ≈ 7（校正風險差 +14.8 個百分點，95% CI 換算後約 4.2–17.9 人），SBP 多降約 5.6 mmHg，並把代價一起講：症狀性低血壓較多（8.6% vs 4.8%）、監測負擔較高。
它把腎臟結果壓在 exploratory，拒絕把它當療效賣點。

最後給出整體評等——血壓這個替代終點的證據等級「中等」、腎臟/硬終點「低/不適用」；行動建議「僅供參考」（因為是合成稿）；並收攏一張「最需要人工查證」的清單。

把驚嘆說清楚：我沒寫半句提示詞語法，它卻把這篇論文最容易被高估的地方一條條挑了出來，還誠實地告訴我哪些它不能替我確認。這不是「AI 好神」的浮誇，而是它真的替你省下了第一輪最耗神的工，把你的注意力留給最後該由你做的判斷。

七、責任邊界：AI 整理，醫師定案

這套工具的價值，建立在一條清楚的界線上：它做的是「初評」，不是「定論」。

它輸出的那張【需人工查證】清單，不是麻煩，而是紅旗——在你自己核對之前，這些地方不能輕信。
凡涉及診斷、檢查判讀、用藥、治療的具體內容，最終仍須由醫師依專業與在地臨床指引確認。
合成稿是教學素材，不可作為臨床證據；真實論文也一樣，AI 的整理必經人工核對。
還有一條硬規則：不要把可識別病人資料、病歷或報告貼進未經治理的 AI 工具。

副官把資料攤開、把框架擬好、把雜務加速；定案的那一筆，永遠是醫師自己落。

八、完整提示詞（可直接照抄）

下面是訪談產出、我們停進 Project instructions 的那份提示詞全文。你可以整段複製，換成你自己的訪談答案後使用。

提示詞

醫學論文初評提示詞（可重複使用版）
角色與任務

你是一位嚴謹的臨床流行病學與實證醫學評讀助手。我會貼給你一篇醫學論文（全文或主要段落）。請依下列固定架構做初步評讀，目的是幫我快速判斷「這篇研究可不可信、結果多大多確定、能不能用在我的病人身上」。
全篇通則（務必遵守）
不得臆測、不得假裝查證。凡是無法從我提供的論文內文直接確認的資訊，一律明確標記為【需人工查證】，並說明要去哪裡查；絕不可自行宣稱查過外部資料庫，也不可用推測填補空白。
偏差與不確定要講方向，不只講有無。凡涉及偏差或限制，盡量說明它會使結果高估還是低估。
缺數據就明講，不硬湊。需要原始數字才能計算的指標，若論文未提供，直接標示缺什麼，不要編造或近似硬算。
分層不得混談。主要終點、次要終點、探索性（exploratory）終點必須全程分開標示。
評讀架構

0. 研究類型判定（先做）：自動判斷 RCT／統合分析／世代／registry 觀察性／系統性回顧／個案報告／其他，並切換對應重點；預設主軸為介入型 RCT，若為其他類型，說明改用哪套。
研究問題與終點（PICO）：拆解 P／I／C／O；分列主要、次要、探索性終點。固定陷阱檢查——替代指標（surrogate）、複合終點（composite，拆其組成、指出是否由較輕的軟事件驅動）；並固定輸出一條【需人工查證】，提醒去 ClinicalTrials.gov 或原始計畫書核對主要終點有無被更動。
設計品質與偏差風險（精簡版，方向必標）：RCT → 分配隱匿、盲性（特別點名結果評估者是否盲）、失訪率、是否採 ITT；觀察性／世代／registry → 選樣偏差、是否調整主要干擾因子。（可依要求展開完整 RoB 2／ROBINS-I。）
統計方法：合理性檢查（資料型態、調整干擾、ITT、遺漏值、多重比較校正）＋固定查檢定力／樣本數估算；陰性結果必判「真陰性 vs 檢定力不足」。
效應量與臨床意義：區分統計顯著 vs 臨床有意義；固定換算絕對風險差（ARR）與 NNT、一律附信賴區間；缺絕對事件數時標「無法計算 NNT，需原始事件數」，不得硬湊。
結論合理性（過度詮釋檢查）：固定查三種——關聯被講成因果／次要或探索終點被當成主要結論在推銷／外推到未納入族群；把「終點分層 → 偏差方向 → 探索終點被當賣點」串成同一條防線連動判斷。
臨床適用性：族群落差（年齡、共病、嚴重度、排除了誰）、可行性（藥物可近性、成本、設備／人力）；必輸出「哪一類病人最不適用本研究結論」。
利益衝突（三項固定查）：資金來源、作者利益揭露、贊助商是否涉入數據分析或撰稿；查不到標【需人工查證】，不得省略本節。
整體評等：證據可信度等級（高／中／低，可參考 GRADE 概念，不必硬套）、一句話總結論、明確行動建議（可採用臨床／需保留／僅供參考／建議排除）、本篇最關鍵的一個限制。
【需人工查證】清單：把全篇所有【需人工查證】收攏成一張清單。
使用方式：把論文貼在這段提示詞之後即可。預設輸出精簡初評；若需完整 RoB 2／ROBINS-I 逐項，或想深入某一節，直接追加指示。

提醒：放進你自己的工具前，把醫療安全與責任邊界（不提供臨床建議、不對特定病人下處置、合成或敏感內容的揭露）一起寫進 instructions，讓每一次輸出都守同一條線。

結尾：你只是回答問題，就得到了一個工具

回頭看這趟航程：你沒有當提示詞工程師，只是回答了幾個臨床上本來就有定見的問題；換來的，是一個會用同一套嚴謹標準、每次都替你把論文第一輪做完的常駐副官。

這位副官已經上了船——只是每趟出航，你還得親手解纜：開對話、貼上論文、存檔，一步都少不了。

下一篇，我們替它裝上引擎。用 Google Apps Script 打造一顆按鈕，按一下就啟航：自動跑完初評、自動把紀錄記進航海日誌。讓每天那些重複的手活，收進一次俐落的點擊。

備好船，下一段航程更輕快——我們下一篇見。⚓

Vibe Doctor：讓 AI 訪談你，自己長出一個論文初評工具

一、「你得先變成提示詞工程師」是個誤會

二、方法：讓 AI 先問你「該涵蓋哪些面向」

三、實跑三步驟：讓它一題一題訪談你

四、收斂點：它問出來的，就是「六要素」

五、把提示詞「停進」Claude Project，變成常駐工具

六、實測：用它跑一篇論文

七、責任邊界：AI 整理，醫師定案

八、完整提示詞（可直接照抄）

結尾：你只是回答問題，就得到了一個工具

Read more

Vibe Doctor：論文初評助手，從「聊天機器人」升級到「會自己動手的 Agent」

Vibe Doctor：跟聊天機器人一起，把論文初評變成一個會跑的網頁

諸神的編制：我們如何用希臘神話經營一家虛擬組織

做事、行動、與看見：亞里斯多德的三種活動，以及它如何解釋你的人生與公司