【
智慧城市網 企業關注】在數字化轉型加速的背景下,公共服務型單位(如政務、醫療、教育、金融等)廣泛應用大模型技術以提升服務效率與質量。然而,大模型在社會意識形態、個人隱私、模型幻覺、倫理等方面存在潛在威脅,如生成內容違反社會主義核心價值觀、泄露用戶隱私、輸出錯誤信息或歧視性內容等。
為響應《生成式人工智能服務管理暫行辦法》等法規要求,保障公共服務的安全性、合規性與可靠性,特制定本解決方案,基于安恒信息在網絡安全的核心能力積累,提供覆蓋 “定期檢測評估、風險會話實時攔截、審計分析” 的全鏈路
安全防護體系。
一、大模型在公共服務中的四大核心威脅
(一)社會意識形態風險
違規內容生成:大模型可能輸出涉及歷史虛無主義、政治敏感話題、虛假信息等內容,違反社會主義核心價值觀,損害公共利益與政府公信力。
價值觀引導偏差:在教育、政務咨詢等場景中,模型可能因訓練數據偏差或算法缺陷,傳遞錯誤價值觀或誤導性信息。
(二)個人隱私風險
敏感數據泄露:訓練語料或推理過程中可能包含用戶隱私(如醫療記錄、身份信息、金融數據),存在數據泄露或濫用風險。
隱私信息生成:用戶交互中,模型可能不當輸出或推斷用戶隱私,違反《個人信息保護法》等法規。
(三)模型幻覺風險
知識錯誤與信息失真:模型在回答專業領域問題(如醫療診斷、政策解讀)時,可能因 “幻覺” 生成無依據或錯誤內容,導致決策失誤或服務質量下降。
邏輯漏洞與異常應答:面對復雜場景或對抗性輸入時,模型可能出現邏輯混亂,輸出不合理或有害內容。
(四)倫理風險
歧視性內容:訓練數據中的偏見可能導致模型生成歧視性言論(如性別、種族、地域歧視),違反公平原則。
惡意誘導與濫用:攻擊者通過提示詞注入、角色扮演等手段,誘導模型生成惡意代碼、欺詐信息或違反倫理的內容。
二、三位一體防護體系
采用“模型上線前/周期檢測 - 服務運營階段的事中攔截 - 安全風險事后審計”三位一體的安全防護體系,覆蓋大模型全生命周期(開發、訓練、部署、運行),重點強化內容安全、數據安全、模型魯棒性與合規性管理。
(一)定期檢測評估
1. 內容安全合規檢測
首先要完成意識形態與倫理檢測,要依據《生成式人工智能服務安全基本要求》《社會主義核心價值觀關鍵詞庫》要求,按照 31 項細分風險(如政治敏感、歧視性內容、商業違規等)結合提示詞工程與 RAG 知識庫技術,模擬真實場景提問,檢測模型輸出是否符合法規與倫理要求。
2. 語料安全與隱私保護
敏感數據識別:對結構/非結構化文檔檢測(如病歷、合同、政務文件),通過 OCR、NLP 技術提取文本,結合正則表達式與實體識別,發現個人信息(身份證號、手機號)、商業機密或隱私數據,防止訓練數據違規采集與泄露。
數據合規性評估:檢測語料來源合法性、去標識化處理是否合規,確保符合《數據安全法》《個人信息保護法》要求。
3. 模型自身安全檢測
魯棒性與對抗攻擊測試:模擬豐富對抗性攻擊(如指令忽略、token 混淆、角色偽裝),驗證模型抗干擾能力,檢測是否存在提示詞注入漏洞或異常應答;通過參數擾動測試,評估模型在輸入噪聲下的穩定性。
漏洞掃描與資產測繪:對大模型基礎設施(
服務器、API 接口、數據庫)進行資產探測,識別弱口令、Web 漏洞(SQL 注入、XSS)、數據庫安全配置風險,生成《安全評估報告》,明確風險等級與修復建議。
4. 檢測周期與流程
周期性檢測:根據企業風險等級,制定季度 / 半年度檢測計劃,覆蓋全量模型與核心業務場景;支持自定義檢測策略,適配不同行業需求(如醫療行業強化隱私檢測,政務行業側重意識形態合規)。
自動化報告生成:檢測完成后自動輸出多維度報告,包含內容合規性評分、隱私風險點、模型漏洞列表、整改方案,滿足監管備案與內部審計要求。

(二)風險會話實時攔截系統
1. 實時監控與動態過濾
在線流量監測:
通過 API 接入大模型服務,實時捕獲用戶輸入與模型輸出,基于內置詞庫與 AI 判定引擎(如安恒 “恒腦” 大模型),識別違規內容(如涉政敏感、隱私泄露、歧視性言論)。
三階語義防火墻:
通過自研的 Embedding 模型識別隱蔽指令,能夠有效攔截大模型推理過程中的潛在違規內容,對輸入和輸出的語義進行深度分析和檢測,防止模型被利用進行惡意攻擊或生成有害內容,強化了模型推理過程中的安全保障。
自定義內容檢測知識庫:支持對知識庫自定義錄入,對垂直領域違規內容通過錄入自定義知識庫提高檢測率。
消息撤回:支持在部分web聊天頁面中發現違規內容后進行消息撤回。
隱私信息檢測脫敏:支持在開啟模型推理的情況下檢測聊天內容中的隱私信息并脫敏。
URL檢測:支持檢測聊天內容中的URL是否是惡意域名、黃色網站、暴恐網站。
強制認證:對被代理模型開啟強制認證,開啟后必須通過AI防火墻訪問模型且密鑰為必傳字段。
模型代答:對違規內容設定模型答復機制,自定義回復內容。
2. 對抗性攻擊防御
動態提示詞過濾:基于智能化測試用例變形技術,實時識別變異攻擊指令(如通過諧音、語義混淆繞過檢測),結合上下文分析判斷意圖,防止模型被誘導生成違規內容。
抗DDoS :支持對后端模型進行頻率控制,有效降低模型負載,保證模型運行穩定性。
(三)審計分析與溯源體系
1. 全鏈路日志記錄
記錄模型調用、檢測任務、策略配置、攔截事件等操作,包含時間、用戶、IP、風險等級等信息,支持日志檢索與導出。
內容日志:加密存儲違規會話的輸入輸出內容,用于事后審計與責任追溯,滿足《生成式人工智能服務管理暫行辦法》對 “服務日志保存期限” 的要求。
2.異步掃描與追溯
支持在空閑時段利用硬件資源對歷史記錄進行推理掃描。這不僅降低了資源占用,還能夠實現事后追溯審計,及時發現并告警違規行為。
例如,可以在夜間等空閑時段對當天的輸入輸出內容進行掃描,發現違規行為后及時記錄并告警,確保安全事件能夠得到及時處理。這種異步掃描機制能夠在不影響正常業務運行的情況下,充分利用系統資源,提高安全檢測的效率和覆蓋率。
三、典型場景
政務智能客服:實時攔截“政策曲解”類提問,月度掃描修復API越權漏洞。
醫療咨詢平臺:脫敏患者病歷信息,防止生成誤導性診斷建議。
教育知識庫:過濾歷史類問答中的錯誤表述,確保內容符合主流價值觀。
四、案例實證
某市政務AI從風險暴露到安全閉環的升級路徑
(一)背景
某市政數局上線智能客服系統,用于解答市民關于全區各類政策、服務事項、政務動態等信息。系統上線初期,出現以下問題:
政策解讀偏差:模型誤將“異地醫保報銷比例”錯誤關聯至過時政策文件。
敏感信息泄露:用戶提問中含身份證時,回復中未脫敏顯示完整號碼。
違規內容風險:惡意用戶通過“如何偽造居住證明”等誘導性問題,試圖觸發模型生成違規操作。
(二)解決方案實施
1.上線前全面風險評估
底層系統及中間件漏洞檢測:25年初對接Deepseek版本后,對底層算力平臺、服務平臺等操作系統完成漏洞檢測,并對Olama組件新爆發漏洞完成全面排查,同時提供風險修復建議。
輸出內容合規性全面評估:圍繞TC260 5大類31項分類通過主動探測方式完成全面輸出內容評估,發現風險問題30余項,輔助完成多輪專項提升后,保障應用順利上線。
周期性安全檢測:執行每周一次安全排查,主要針對智能客服API“未授權訪問”漏洞、最新大模型組件漏洞、新輿情內容風險進行檢測。
2.運行階段實時防護
輸出、輸出安全防護:
敏感詞攔截:內置“偽造”“虛假”等關鍵詞,實時攔截誘導性提問(如“如何偽造居住證明”)。
語義分析:檢測政策類問題時,自動關聯最新政策庫(如2024年醫保新規),避免過時信息輸出。
語料安全防護:
輸入脫敏:識別用戶提問中的身份證號(如“440***5678”),輸出時僅顯示部分字段。
輸出校驗:對模型回復進行二次合規檢查,確保不包含未脫敏隱私信息。
3.日常運維審計與優化
通過異步掃描發現某IP高頻提交“醫保套現”類敏感問題,定位為惡意爬蟲攻擊。聯動處置手段是將該IP加入黑名單,并啟用防暴力破解策略。
(三)實施成效
服務準確性增強:政策類問題回復準確率從72%提升至95%以上。
風險攔截率提升:實時攔截惡意提問與違規回復,內容安全事故減少90%。
合規成本降低:自動化報告生成節省日常運維80%人工審核時間。
(四)案例總結
通過安恒信息大模型安全整體解決方案,該政務智能客服系統實現了“智能,更安全”理念,在保障內容安全與隱私合規的同時,顯著提升了公共服務質量,為其他公共服務型企業的大模型安全建設提供了標桿參考。