国产毛片一区二区,黄色体验区,亚洲一级电影在线观看,亚洲特黄,a级在线视频,小嫩嫩下直流白浆视频,亚洲a级黄色片

Hi,歡迎來(lái)到黃頁(yè)88網(wǎng)!
當前位置:首頁(yè) > 人工智能 > ChatGPT運用了哪些高端技術(shù)?

ChatGPT運用了哪些高端技術(shù)?

互聯(lián)網(wǎng)時(shí)間: 2023-05-08 10:34:45

ChatGPT整體技術(shù)方案是基于 GPT-3.5 大規模語(yǔ)言模型通過(guò)人工反饋強化學(xué)習來(lái)微調模型,讓模型一方面學(xué)習人的指令,另一方面學(xué)習回答的好不好。

核心提升了什么?

ChatGPT在對話(huà)場(chǎng)景核心提升了以下三方面:

1)更好的理解用戶(hù)的提問(wèn),提升模型和人類(lèi)意圖的一致性,同時(shí)具備連續多輪對話(huà)能力。

2)大幅提升結果的準確性,主要表現在回答的更加的全面,同時(shí)可以承認錯誤、發(fā)現無(wú)法回答的問(wèn)題。

3)具備識別非法和偏見(jiàn)的機制,針對不合理提問(wèn)提示并拒絕回答。

ChatGPT的提升主要涉及以下三方面技術(shù):

1)性能強大的預訓練語(yǔ)言模型GPT3.5,使得模型具備了博學(xué)的基礎。

2)webGPT等工作驗證了監督學(xué)習信號可大幅提升模型準確性。

3)InstructGPT等工作引入強化學(xué)習驗證了對齊模型和用戶(hù)意圖的能力。

ChatGPT技術(shù)

整體技術(shù)流程

ChatGPT的訓練過(guò)程分為微調GPT3.5模型、訓練回報模型、強化學(xué)習來(lái)增強微調模型三步:

第一步:微調GPT3.5模型。讓GPT 3.5在對話(huà)場(chǎng)景初步具備理解人類(lèi)的的意圖,從用戶(hù)的prompt集合中采樣,人工標注prompt對應的答案,然后將標注好的prompt和對應的答案去Fine-tune GPT3.5,經(jīng)過(guò)微調的模型具備了一定理解人類(lèi)意圖的能力。

第二步:訓練回報模型。第一步微調的模型顯然不夠好,至少他不知道自己答的好不好,這一步通過(guò)人工標注數據訓練一個(gè)回報模型,讓回報模型來(lái)幫助評估回答的好不好。具體做法是采樣用戶(hù)提交的prompt,先通過(guò)第一步微調的模型生成n個(gè)不同的答案,比如A、B、C、D。接下來(lái)人工對A、B、C、D按照相關(guān)性、有害性等標準標準并進(jìn)行綜合打分。有了這個(gè)人工標準數據,采取pair-wise 損失函數來(lái)訓練回報模型RM。這一步實(shí)現了模型判別答案的好壞。

第三步:強化學(xué)習來(lái)增強微調模型。使用第一步微調GPT3.5模型初始化PPO模型,采樣一批和前面用戶(hù)提交prompt不同的集合,使用PPO模型生成答案,使用第二步回報模型對答案打分。通過(guò)產(chǎn)生的策略梯度去更新PPO模型。這一步利用強化學(xué)習來(lái)鼓勵PPO模型生成更符合RM模型判別高質(zhì)量的答案。

通過(guò)第二和第三步的迭代訓練并相互促進(jìn),使得PPO模型能力越來(lái)越強。

主要涉及的技術(shù)細節

1) GPT3.5理解能力提升

ChatGPT是在GPT3.5模型技術(shù)上進(jìn)行微調的,這里對GPT-3.5在GPT3基礎上做的工作進(jìn)行梳理,官方列舉了以下GPT-3.5系列幾個(gè)型號:

code-davinci-002 是一個(gè)基礎模型,對于純代碼補全任務(wù)。這也是ChatGPT具備超強代碼生成能力的原因。

text-davinci-002 是在code-davinci-002基礎上訓練的InstructGPT模型,訓練策略是instructGPT+FeedRM。

text-davinci-003 是基于text-davinci-002模型的增強版本,訓練策略是instructGPT+PPO。

根據如下圖官方發(fā)布的模型時(shí)間線(xiàn)和文檔,我們可以了解到ChatGPT是在text-davinci-003 基礎上微調而來(lái),這也是ChatGPT模型性能如此強大的核心要素。因為GPT-3.5系列模型是在2021年第四季度之前的文本和代碼樣本上訓練,所以我們體驗ChatGPT時(shí)候同樣無(wú)法回答訓練樣本日期之后的問(wèn)題。

ChatGPT技術(shù)

2) 監督信號提升效果顯著(zhù)

GPT3之前在預訓練+微調已經(jīng)是NLP任務(wù)中標準范式,GPT3模型的訓練是純自監督學(xué)習并以API的形式發(fā)布,用戶(hù)不具備微調的能力,官方也是主打預訓練+提示學(xué)習的能力。Prompt方法本質(zhì)是挖掘語(yǔ)言模型本身具備的知識,恰當的提示去激發(fā)語(yǔ)言模型的補全能力。監督信號微調可以理解為改變了語(yǔ)言模型的理解能力,InstructGPT的工作可以理解為對GPT3-SFT做了數據增強提升,使得模型在理解人類(lèi)指令方面更出色。但這并不影響監督信號對最終效果的價(jià)值。

在InstructGPT的工作中,我們可以看到GPT3-SFT和InstructGPT在毒性、幻覺(jué)、理解客戶(hù)能力上,監督學(xué)習微調已經(jīng)和強化學(xué)習對比有很大的競爭力,甚至在幻覺(jué)角度比基于強化學(xué)習的InstructGPT提升很明顯。

ChatGPT技術(shù)

3) 人類(lèi)反饋強化微調效果

ChatGPT通過(guò)人類(lèi)反饋強化學(xué)習(RLHF)來(lái)讓模型理解人類(lèi)的指令。人類(lèi)反饋強化學(xué)習(RLHF)是DeepMind早期提出的,使用少量的人類(lèi)反饋來(lái)解決現代RL任務(wù)。RLHF的思想在很多工作中都有體現,例如OpenAI的webGPT、DeepMind中Sparrow等都通過(guò)人類(lèi)的反饋進(jìn)一步提升大模型的效果。

RLHF整個(gè)訓練過(guò)程如下圖所示:

ChatGPT技術(shù)

目標是實(shí)現后空翻的任務(wù),智能體Agent在環(huán)境中隨機行動(dòng),每隔一段時(shí)間,兩個(gè)行為的視頻片段給一個(gè)人,人判斷兩個(gè)視頻哪個(gè)更接近目標。通過(guò)人的反饋數據,學(xué)習一個(gè)最能解釋人類(lèi)判斷的獎勵模型Reward Model,然后使用RL來(lái)學(xué)習如何實(shí)現目標。隨著(zhù)人類(lèi)繼續提供模型無(wú)法判斷時(shí)候的反饋,實(shí)現了進(jìn)一步完善它對目標的理解。智能體Agent從人類(lèi)反饋中學(xué)習最終在許多環(huán)境中有時(shí)甚至是超過(guò)人類(lèi)的表現。

行動(dòng)驅動(dòng)的大語(yǔ)言模型

盡管學(xué)術(shù)界一直無(wú)法真正定義AGI,今年大型語(yǔ)言模型(LLM)的表現讓我們對通用人工智能有了期待,通過(guò)OpenAI的ChatGPT、Google的PaLM、DeepMind的Sparrow取得的成功,人工智能的未來(lái)應該是行動(dòng)驅動(dòng)的,一個(gè)行動(dòng)驅動(dòng)的LLM看起來(lái)很像AGI,如下圖所示:

ChatGPT技術(shù)

模型的行為就像一個(gè)智能體Agent選擇行動(dòng)。在中間,我們有開(kāi)箱即用的基礎模型LLM。用戶(hù)通過(guò)Prompt詢(xún)問(wèn)模型結果。

左邊是外部可利用的資源,這些可以是任何將文本作為輸入并提供文本作為輸出的函數,包括搜索、數據庫、代碼解釋器和與人聊天等,它可以增強模型的能力。

右邊是我們有任務(wù)導向的訓練,如instruction tuning、RLHF等。instruction tuning相對好實(shí)現,RLHF需要調整PPO算法相對較難。整體上RL利用使用日志等專(zhuān)有數據,通過(guò)創(chuàng )建強大的反饋回路,訓練模型使其更加符合任務(wù)需求并迭代優(yōu)化。

ChatGPT ChatGPT智能工具 ChatGPT技術(shù)

本文標題: ChatGPT運用了哪些高端技術(shù)?

本文地址: http://m.guizhouboda.com/brand/news-881aaf7b5.html

內容均來(lái)源于網(wǎng)絡(luò ),錯誤糾正或刪除請發(fā)郵件,收件郵箱kefu@huangye88.com

2009-2025 黃頁(yè)88版權所有 京ICP備2023012932號-1京公網(wǎng)安備 11010802023561號 京ICP證100626

內容均來(lái)源于網(wǎng)絡(luò ),錯誤糾正或刪除請發(fā)郵件,收件郵箱kefu@huangye88.com