1簡介。ChatGPT聊天機器人
ChatGPT是OpenAI開發的人工智能聊天機器人程序,於2022年6月165438+10月上線。該程序使用基於GPT 3.5架構的大型語言模型,並通過強化學習進行訓練。
ChatGPT目前還是與文字交互,但是可以用於相對復雜的語言工作,除了人類自然對話之外,還包括自動文本生成、自動問答、自動摘要等等。
比如在自動文本生成中,ChatGPT可以自動生成相似的文本(劇本、歌曲、計劃等。)根據輸入的文字自動生成答案,而在自動問答中,ChatGPT可以根據輸入的問題自動生成答案。它還具有編寫和調試計算機程序的能力。
推廣期間,每個人都可以免費註冊,登錄後使用ChatGPT免費與AI機器人對話。
ChatGPT能寫出類似真人水平的文章,迅速獲得關註,是因為它在許多知識領域給出了詳細的答案和清晰的答案,證明它也能勝任此前被認為不會被AI取代的知識型工作,對金融和白領勞動力市場也有相當大的影響,但它參差不齊的事實準確性被認為是壹大缺陷。
它是基於思想模型訓練的結果,被認為需要認真修正。2022年6月ChatGPT發布後,OpenAI的估值已經上升到290億美元[7]。上線兩個月後,用戶數達到6543.8+0億。
2.ChatGPT如何訓練數據?
ChatGPT使用基於人類反饋的監督學習和強化學習來微調GPT-3.5。這兩種方法都使用人類訓練器來提高模型的性能,通過人類的幹預來增強機器學習的效果,從而獲得更真實的結果。
在監督學習的情況下,模型提供有對話,其中訓練者J扮演用戶和AI助手的角色。在強化步驟中,人類培訓師首先對模型在之前的對話中產生的反應進行評級。
這些級別用於創建“獎勵模型”,該模型通過多次叠代近似策略優化(PPO)進行進壹步微調。
該策略優化算法比信賴域策略優化算法更有效。這些模型是在微軟的Microsoft Azure超級計算基礎設施上與微軟合作訓練的。
此外,OpenAI繼續從ChatGPT用戶那裏收集數據,這些數據可用於進壹步的培訓和微調ChatGPT。允許用戶投票贊成或反對他們從ChatGPT收到的回復;當投票贊成或反對時,他們還可以在文本字段中填寫額外的反饋。
ChatGPT的訓練數據包括各種文檔和各種關於互聯網和編程語言的知識,比如BBS和Python編程語言。
至於ChatGPT編寫和調試計算機程序能力的訓練,深度學習模型和所有其他基於深度學習的語言模型壹樣,只是得到代碼片段之間的統計相關性。