▌作者簡介:許旭安(Bob Hsu),現任未來巢科技董事長,曾任美商Synergies智能科技數位轉型總監、席思人工智能學院總經理、天元數位科技共同創辦人兼執行長。持續用AI與大數據協助產業數位轉型,輔導經驗橫跨產十幾個產業。因企管自學橫跨技術背景,長年致力於科技教育,願成為非資訊背景人的科技傳教士。

幾天前,一則判決在台灣科技圈投下震撼彈。法律搜尋新創Lawsnote因爬取競爭對手資料,被判刑4年並須賠償上億元,這不僅是法律新聞,更讓許多評估或已啟動AI專案的企業開始反思:當談到生成式AI或企業內部GPT,我們是否真正想清楚「資料」這件事?

那晚我收到不少新創圈和企業主訊息,有人半開玩笑:「還沒開始做內部版GPT,就被告知要先擔心爬蟲和著作權?」也有人焦慮:「接下來做LLM的新創,是不是得先準備律師團?」這些反應其實指向同一件事:資料焦慮。

過去筆者協助政府、金融、製造等產業導入雲端與地端的生成式AI,常見許多專案一開始熱衷選擇LLM、雲服務、硬體規格,卻忽略了最根本的問題:這題目值得解嗎?資料有足夠品質和合法性嗎?忽略這層基礎,最終只是花大錢建廚房卻沒好食材。

模型的糧食:資料從哪裡來?

任何企業內部GPT專案若要產生價值,首要正視資料來源與準備,生成式AI的表現依賴所餵養的資料,就如同再高超的廚藝,也無法用腐壞的食材煮出美味料理。

LLM在訓練時吸收了來自網路的大量公開資料,讓模型能流暢對話、具備基礎知識,但在企業應用層面,這些泛用知識不足以支撐專業需求。以Lawsnote案例為例,主流LLM沒有完整收錄台灣最新法規,因此公司才需自行建資料庫。

企業真正能轉化為智慧的,是自身多年累積的數據,這些資料可能散落在舊型ERP、客服資料夾、內網、雲端文件,甚至舊員工硬碟裡。它們龐大且多元,常有格式不一致、權責不清等問題,因此整理與準備資料往往比想像更耗時。

企業整理並導入資料的3個主要方式:

1.API或批次匯入

如同幫訓練模型接上穩定的資料水管,若來源有API(編按:串接不同的應用程式,讓資料得以共享的介面),企業能合法穩定的更新資料,建立正規流程。

2.爬蟲自動收集

爬蟲本身不是非法,關鍵在授權與使用方式,若未經授權抓取對方資料、違反條款,或導致對方系統異常,可能違約、侵權或觸法。企業應先諮詢法務並嚴守服務條款與技術規範(如robots.txt)。

3.人工整理上傳

當資料散在不同格式或系統中,人工整理雖成本高、效率低,卻在初期或特殊產業仍不可或缺,此階段企業才會真實面對資料標註一致性、存取權限、個資保護等治理基本功。

技術選擇:RAG與Fine-tune的取捨

資料備妥後,企業面臨下一步:選擇資料運用模式,這決定了專案的維運模式、風險控管與投資效益。

RAG(檢索增強生成)

RAG在每次生成回答時,會即時檢索資料庫輔助生成,就像顧問查資料室文件再答覆。優點包括:

  • 資料可持續更新,不必頻繁重訓模型。
  • 回覆可標示資料來源,增強可追溯性與合規性。
  • 適應法規、規範變動頻繁的場景。

挑戰則在於需建置高效的索引、檢索與更新機制,否則效果大打折扣。

Fine-tune(微調訓練)

Fine-tune是將資料直接訓練進模型,讓回答更自然、反應更快,適用於知識穩定的領域(如產品說明)。但有以下缺點:

  • 資料有重大更新需重訓,成本高。
  • 訓練需大量算力與時間。
  • 資料品質不佳易產生誤導性結果,風險高。

企業選擇模式時應考量:

  • 解決的是專業型還是通用型問題?
  • 資料變動頻率?
  • 硬體與維運成本?
  • 回覆是否需可追溯來源以符合法規?

導入內部GPT:選對題目比技術更重要

Lawsnote的判決提醒企業:資料來源、合法性與品質,決定專案成敗。但在談資料之前,更該先選對題目。生成式AI在企業應優先聚焦於:

  • 顯著提升效率、降低風險或創造營收的題目。
  • 資料來源合法、品質佳且能持續更新。
  • 即便偶爾出現AI「幻覺」,企業能接受並設計防呆機制。

令人擔憂的是,不少企業未明確定義「題目價值與資料基礎」便啟動專案,結果陷入高成本、低產出的困境,就算模型再準確,沒有適合題目與良好資料,仍難發揮價值。

這也是筆者在經歷眾多公司輔導的失敗與成功過程,所歸納出的結論,導入生成式AI的正確路徑是:題目價值評估、資料治理、合規審視、技術選型缺一不可。

在AI浪潮中,資料既是模型的糧食,也是企業競爭力基石,別只看晶片光芒,忘了點燃AI價值的真正火種,是清晰的題目與紮實的資料。

責任編輯:陳瑋鴻
核稿編輯:倪旻勤