Paano Mag-download at Mag-install ng Llama 2 Lokal - |Ipinaliwanag ang Teknolohiya|DIY|

Ang mga mambabasang tulad mo ay tumutulong sa pagsuporta sa MUO. Kapag bumili ka gamit ang mga link sa aming site, maaari kaming makakuha ng isang affiliate na komisyon. Magbasa pa.

Inilabas ng Meta ang Llama 2 noong tag-araw ng 2023. Ang bagong bersyon ng Llama ay pinong-tune na may 40% na higit pang mga token kaysa sa orihinal na modelo ng Llama, na nagdodoble sa haba ng konteksto nito at higit na nakahihigit sa iba pang mga open-sourced na modelong available. Ang pinakamabilis at pinakamadaling paraan upang ma-access ang Llama 2 ay sa pamamagitan ng API sa pamamagitan ng online na platform. Gayunpaman, kung nais mo ang pinakamahusay na karanasan, ang pag-install at pag-load ng Llama 2 nang direkta sa iyong computer ay pinakamahusay.

Sa pag-iisip na iyon, gumawa kami ng sunud-sunod na gabay sa kung paano gamitin ang Text-Generation-WebUI upang mag-load ng quantized na Llama 2 LLM nang lokal sa iyong computer.

Bakit Lokal na I-install ang Llama 2

Maraming dahilan kung bakit pinipili ng mga tao na direktang patakbuhin ang Llama 2. Ginagawa ito ng ilan para sa mga alalahanin sa privacy, ang ilan para sa pagpapasadya, at iba pa para sa mga offline na kakayahan. Kung nagsasaliksik ka, nag-fine-tune, o nagsasama ng Llama 2 para sa iyong mga proyekto, maaaring hindi para sa iyo ang pag-access sa Llama 2 sa pamamagitan ng API. Ang punto ng pagpapatakbo ng isang LLM nang lokal sa iyong PC ay upang bawasan ang pag-asa sa mga tool ng third-party na AI at gumamit ng AI anumang oras, kahit saan, nang hindi nababahala tungkol sa paglabas ng potensyal na sensitibong data sa mga kumpanya at iba pang organisasyon.

Sa sinabi nito, magsimula tayo sa sunud-sunod na gabay sa pag-install ng Llama 2 nang lokal.

Hakbang 1: I-install ang Visual Studio 2019 Build Tool

Upang pasimplehin ang mga bagay, gagamit kami ng one-click na installer para sa Text-Generation-WebUI (ang program na ginamit upang i-load ang Llama 2 gamit ang GUI). Gayunpaman, para gumana ang installer na ito, kailangan mong i-download ang Visual Studio 2019 Build Tool at i-install ang mga kinakailangang mapagkukunan.

I-download: Visual Studio 2019 (Libre)

Sige at i-download ang community edition ng software.
Ngayon i-install ang Visual Studio 2019, pagkatapos ay buksan ang software. Kapag nabuksan, lagyan ng tsek ang kahon Pagbuo ng desktop gamit ang C++ at pindutin ang install.

Ngayong mayroon ka nang Desktop development na may naka-install na C++, oras na para i-download ang Text-Generation-WebUI one-click installer.

Hakbang 2: I-install ang Text-Generation-WebUI

Ang Text-Generation-WebUI one-click installer ay isang script na awtomatikong gumagawa ng mga kinakailangang folder at nagse-set up ng Conda environment at lahat ng kinakailangang kinakailangan para magpatakbo ng AI model.

Upang i-install ang script, i-download ang isang-click na installer sa pamamagitan ng pag-click sa Code > I-download ang ZIP.

I-download: Text-Generation-WebUI Installer (Libre)

Kapag na-download na, i-extract ang ZIP file sa iyong gustong lokasyon, pagkatapos ay buksan ang na-extract na folder.
Sa loob ng folder, mag-scroll pababa at hanapin ang naaangkop na start program para sa iyong operating system. Patakbuhin ang mga programa sa pamamagitan ng pag-double click sa naaangkop na script.
- Kung ikaw ay nasa Windows, piliin start_windows batch file
- para sa MacOS, piliin start_macos shell script
- para sa Linux, start_linux script ng shell.
Maaaring lumikha ng alerto ang iyong anti-virus; ito ay mabuti. Ang prompt ay isang maling positibong antivirus para sa pagpapatakbo ng isang batch file o script. Mag-click sa Tumakbo pa rin .
Magbubukas ang isang terminal at sisimulan ang pag-setup. Sa simula pa lang, ipo-pause ang setup at tatanungin ka kung anong GPU ang ginagamit mo. Piliin ang naaangkop na uri ng GPU na naka-install sa iyong computer at pindutin ang enter. Para sa mga walang nakalaang graphics card, piliin Wala (Gusto kong magpatakbo ng mga modelo sa CPU mode) . Tandaan na ang pagpapatakbo sa CPU mode ay mas mabagal kung ihahambing sa pagpapatakbo ng modelo na may nakalaang GPU.
Kapag kumpleto na ang pag-setup, maaari mo na ngayong ilunsad ang Text-Generation-WebUI nang lokal. Magagawa mo ito sa pamamagitan ng pagbubukas ng iyong gustong web browser at pagpasok ng ibinigay na IP address sa URL.
Ang WebUI ay handa na ngayong gamitin.

Gayunpaman, ang programa ay isang model loader lamang. I-download natin ang Llama 2 para ilunsad ang model loader.

Hakbang 3: I-download ang Llama 2 Model

Mayroong ilang mga bagay na dapat isaalang-alang kapag nagpapasya kung aling pag-ulit ng Llama 2 ang kailangan mo. Kabilang dito ang mga parameter, quantization, hardware optimization, laki, at paggamit. Ang lahat ng impormasyong ito ay makikita na nakasaad sa pangalan ng modelo.

i-download ang windows xp iso para sa virtualbox

Mga Parameter: Ang bilang ng mga parameter na ginamit upang sanayin ang modelo. Ang mas malalaking parameter ay gumagawa ng mga modelong mas may kakayahan ngunit sa halaga ng pagganap.
Paggamit: Maaaring maging standard o chat. Ang isang modelo ng chat ay na-optimize upang magamit bilang isang chatbot tulad ng ChatGPT, habang ang pamantayan ay ang default na modelo.
Pag-optimize ng Hardware: Tumutukoy sa kung anong hardware ang pinakamahusay na nagpapatakbo ng modelo. Nangangahulugan ang GPTQ na ang modelo ay na-optimize upang tumakbo sa isang nakalaang GPU, habang ang GGML ay na-optimize upang tumakbo sa isang CPU.
Quantization: Nagsasaad ng katumpakan ng mga timbang at pag-activate sa isang modelo. Para sa inferencing, ang katumpakan ng q4 ay pinakamainam.
Sukat: Tumutukoy sa laki ng partikular na modelo.

Tandaan na ang ilang mga modelo ay maaaring magkaiba at maaaring hindi magkaroon ng parehong mga uri ng impormasyon na ipinapakita. Gayunpaman, ang ganitong uri ng kombensyon ng pagbibigay ng pangalan ay medyo karaniwan sa Hugging Mukha Model library, kaya sulit pa rin itong unawain.

Sa halimbawang ito, maaaring matukoy ang modelo bilang isang medium-sized na modelo ng Llama 2 na sinanay sa 13 bilyong parameter na na-optimize para sa inferencing sa chat gamit ang nakalaang CPU.

Para sa mga tumatakbo sa isang nakalaang GPU, pumili ng a GPTQ modelo, habang para sa mga gumagamit ng CPU, pumili GGML . Kung gusto mong makipag-chat sa modelo tulad ng gagawin mo sa ChatGPT, pumili chat , ngunit kung gusto mong mag-eksperimento sa modelo na may buong kakayahan, gamitin ang pamantayan modelo. Tulad ng para sa mga parameter, alamin na ang paggamit ng mas malalaking modelo ay magbibigay ng mas mahusay na mga resulta sa gastos ng pagganap. Personal kong inirerekumenda na magsimula ka sa isang 7B na modelo. Tulad ng para sa quantization, gamitin ang q4, dahil ito ay para lamang sa inferencing.

I-download: GGML (Libre)

I-download: GPTQ (Libre)

kung paano mag-install ng apps sa vizio tv

Ngayong alam mo na kung anong pag-ulit ng Llama 2 ang kailangan mo, sige at i-download ang modelong gusto mo.

Sa aking kaso, dahil pinapatakbo ko ito sa isang ultrabook, gagamit ako ng modelong GGML na pinino para sa chat, call-2-7b-chat-ggmlv3.q4_K_S.bin.

Pagkatapos ng pag-download, ilagay ang modelo text-generation-webui-main > mga modelo .

Ngayong na-download mo na ang iyong modelo at nailagay sa folder ng modelo, oras na para i-configure ang loader ng modelo.

Hakbang 4: I-configure ang Text-Generation-WebUI

Ngayon, simulan natin ang bahagi ng pagsasaayos.

Muli, buksan ang Text-Generation-WebUI sa pamamagitan ng pagpapatakbo ng start_(iyong OS) file (tingnan ang mga naunang hakbang sa itaas).
Sa mga tab na matatagpuan sa itaas ng GUI, i-click Modelo. I-click ang refresh button sa dropdown na menu ng modelo at piliin ang iyong modelo.
Ngayon mag-click sa dropdown na menu ng Model loader at piliin AutoGPTQ para sa mga gumagamit ng modelong GTPQ at ctransformers para sa mga gumagamit ng modelong GGML. Sa wakas, mag-click sa Magkarga upang i-load ang iyong modelo.
Upang gamitin ang modelo, buksan ang tab na Chat at simulan ang pagsubok sa modelo.

Binabati kita, matagumpay mong na-load ang Llama2 sa iyong lokal na computer!

Subukan ang Iba pang LLM

Ngayong alam mo na kung paano direktang patakbuhin ang Llama 2 sa iyong computer gamit ang Text-Generation-WebUI, dapat mo na ring patakbuhin ang iba pang LLM bukod sa Llama. Tandaan lamang ang mga kumbensyon sa pagbibigay ng pangalan ng mga modelo at ang mga quantized na bersyon lamang ng mga modelo (karaniwang q4 precision) ang maaaring i-load sa mga regular na PC. Maraming quantized na LLM ang available sa HuggingFace. Kung gusto mong tuklasin ang iba pang mga modelo, hanapin ang TheBloke sa modelong library ng HuggingFace, at dapat kang makakita ng maraming mga modelong magagamit.