Lik'homphieutha, Mananeo a
UTF-8 - tlhaku khouto
Unicode tshehetsa hoo e batlang e tsohle tse teng disete botho ba hae. Molemo ka ho fetisisa mofuta oa khouto Unicode sete tlhaku e UTF-8 khouto. Ho tshehetsa sebeletsana le ASCII, ho hanyetsa ho khopama ya data ya, le bokgoni le boiketlo ba sebetsa. Empa lintho tsa pele pele.
Coding foromo
Lik'homphieutha sebetsa, e seng feela e le linomoro inahaneloang beha dintho thuto ea lipalo, hammoho le ho tlhakantsuke ya diyuniti tsa polokelo le ho sebetsana ya data e tsitsitseng-boholo - bajt le mantsoe a 32-hanyenyane. Khouto tekanyetso lokela ho nahanela ha beha joang hore le hlahise ' palo ea batho bao ho buuoang.
Ka tsamaiso ea k'homphieutha, ho inthenja bolokoa lisele hopola 8 likotoana (1 bajt), 16 kapa 32 likotoana. E mong le e foromo e hlalosa ka Unicode khouto, eo tatelano ea lisele memori kapa ke palotlalo tsamaisanang le letšoao ho khetheha. Ka molao oa ho na le liforomo tse tharo tse sa tšoaneng tsa Coding Unicode litlhaku 8, 16 le 32-hanyane diboloko. Ka lebaka leo, ba ile ba tsejoa e le UTF-8, UTF-16 le UTF-32. Lebitso UTF emela Unicode Phetoho Format. Mong le e mong liforomo le tse tharo tsa khouto mokgwa o lekana le boemedi Unicode tlhaku na le melemo ka dikopo tse sa tšoaneng.
Data taetsitshireletso ka sebelisoa ho emela batho bohle ba ka tekanyetso Unicode. Kahoo, ba na le ka botlalo e sebeletsanang le yona ho ditharollo tsa mabaka a sa tšoaneng, a sebelisa mefuta e sa tšoaneng ea Coding. E mong le e sa tsoaneng e ka unambiguously fetoloa efe kapa efe ya tse ling tse peli tse ntle le ho lahleheloa ke ya data.
nenalozheniya molao-motheo
Mong le e mong mefuta e Unicode khouto ntshetswa pele ka lebaka la bao e seng leeme lepelela. Mohlala, Windows-932 e bopa le litlhaku tsa li-byte le 'ngoe kapa tse peli tsa khoutu ya. A latellana joang bolelele itšetlehile ka bajt pele, kahoo tataiso bajt maemo a letoto la tse peli-bajt le ba se nang balekane bajt disjoint. Leha ho le joalo, boleng ba bajt e le 'ngoe le kobendaka bajt tatelano ka' na tsamaisane. Sena se bolela ka mohlala hore sebapali batla D (khoutu 44) ka fumana e phoso kena karolo ea bobeli ea tatelano ya peli bajt tlhaku "D" (khoutu 84 44). Ho fumana hore leo tatelano e nepahetse, lenaneo lena le lokela ho nahana ka ho li-byte fetileng.
Boemo bo rarahaneng, ha e etellang pele 'me kobendaka li-byte papali. Hona ho bolela hore e le hore ho tlosa ambiguity tla ba Lookup khutlisetsang pele fihla qalong ea ea mongolo kapa e ikhethang khoutu tatelano. Sena ha se feela sebetse hantle, empa e sa sirelelitsoe liphoso khoneha, kaha le 'ngoe feela e fosahetseng bajt ho temana ea feletseng e se e unreadable.
Format ho sokoloha Unicode qoba bothata bona hobane boleng ba pele, kobendaka, le unit trust le 'ngoe ea polokelo ha tlhahisoleseding e tšoanang. Sena se etsa bonnete ba hore tsohle Unicode ea ho batla le ho bapisa sena, ha ho mohla nkileng ka fana ka sephetho fosahetseng e loketseng ho iketsahalletseng ea likarolong tse sa tšoaneng tsa khoutu botho ba hae. 'nete ea hore mefuta ena ea Coding boloka nenalozheniya molao-motheo, distinguishes ba ho tloha tse ling tse East Asia encodings selotlolo bajt.
karolo e 'ngoe nonintersection Unicode encodings ke hore e mong le botho ba nang le mophetho hlaka hlalosoa. Sena se felisa ho hlokahala hore a Scan e sa lekanyetsoang palo matšoao fetileng. Tsobotsi ena e ka linako tse ling bitsoa intša clocking khouto. Khopama ya diyuniti khoutu tla hlahisang ho khopama ea tlhaku e 'ngoe feela,' me batho ba ka ba potolohileng ba ntse ba eme. Ka ho sokoloha 8-hanyane thalong, haeba sesupi lintlha ho bajt e, ho qala ka 10xxxxxx (ka khoutu binary) ho fumana qaleho ea letshwao e hlokahalang bakeng sa ho isa ho a mararo ho fetoha khutlisetsang.
tumellano
Unicode khonsotiamong tšehetsa ka botlalo mefuta eohle 3 of encodings. Ho bohlokoa a se ke a hanyetsa UTF-8 le Unicode, e rulaganya tsohle ho sokoloha - tsela e tsoanang a utloahalang a mefuta e meng ea mothofatso oa Unicode-khouto tlhaku e tloaelehileng.
Bajt-dikamano
Hore a emele batho ba hlahang ka UTF-32 tla hloka 32-hanyane khoutu yuniti, eo ketekeloang hong le khoutu Unicode. UTF-16 - mong ho diyuniti tse pedi 16-hanyenyane. A UTF-8 sebedisa ho fihlela ho 4 li-byte.
UTF-8 khouto e reretsoe ho ba nyalanang le tsamaiso ea bajt-sekametseng ASCII tse thehiloeng Bibeleng. Boholo ba Software a le teng le mokhoa oa ho thekenoloji lesedi ka nako e telele ba itšetleha ka setšoantšo sa litlhaku ka tatelano ea li-byte. diprothokholo tse ngata itšetlehile ka tiisetso ea khouto ASCII le sebedisa ka qoba ho litlhaku khethehileng taolo. A tsela e bonolo ho tloaela maemo a Unicode khonang, ho sebedisa 8-bit e sa tsoaneng e bakeng sa emelang litlhaku Unicode, leha e le lekanang ASCII tlhaku kapa botho ba ka taolo. Ho finyella sena, 'me e ke UTF-8 khouto.
polygonal bolelele
UTF-8 - Coding ba bolelele polygonal, e bopilweng ka diyuniti polokelo 8-hanyane, ka likotoana ka holimo tseo li bontša hore e le karolo ea tatelano ea e mong le e bajt motho ho eena. E mong mefuta e fapaneng ya makgabane abetsoeng ho elements ea pele ea tatelano code, e mong - bakeng sa e tlang. Sena se fana ka disjointness khouto.
ASCII
dikhoutu UTF-8 khouto o tšehetsoa ka botlalo ASCII (0x00-0x7F). Sena se bolela hore batho ba hlahang ka Unicode U + ya 0000-U + 007F ba fetoloa le 'ngoe bajt 0x00-0x7F UTF-8' me kahoo ba tsoana ka litsobotsi tloha ASCII. Ho feta moo, ho qoba ambiguity, boleng ba 0x00-0x7F ha sebelisoa leha e le efe ho feta ho e le 'ngoe bajt setšoantšo sa litlhaku Unicode. Ho encode matshwaonyana neideograficheskih ntle ASCII, sebedisa tatelano ea li-byte tse peli. Symbols Range ho U + 0800-U + FFFF ba emeloang ke li-byte tse tharo, 'me dikhoutu tse eketsehileng le ho feta U + FFFF hloka li-byte bane.
lekala la kopo
UTF-8 khouto hangata o fuoa ratang ka melaoana ea HTML, le tse ling.
XML fetohile tekanyetso pele e nang le tšehetso e tletseng bakeng sa UTF-8 khouto. mekhatlo litekanyetso tsa hae hape ho kgothaletsa eona. Support bothata ka aterese ea URL eo e fapaneng ho tloha ASCII-litlhaku, o ile a etsa qeto ea ha khonsotiamong help w3c le IETF boenjiniere le sehlopha ba tla ho tumellano ka tsoaneng e tsohle liaterese URL feela ka UTF-8.
Sebeletsana le ASCII ntsetso-peleng fetoheng molaong Software le lecha. Ka UTF-8 sebetsa fetisisa bahlophisi ho mongolo, ho akarelletsa le JEdit, Emacs, BBEdit, fifala ha letsatsi, 'me "Notepad" le Windows tshebetso ya ho sebetsa. Ha ho foromo tse ling tsa khouto Unicode sitoa ho ithorisa a tšehetso joalo oa sesebelisoa sa.
khouto Molemo itšetlehile ka 'nete ea hore ho na le e tatelano ya li-byte. Ka UTF-8 khoele ke ho le bonolo ho sebetsa ka C le lipuo tse ling tse mananeo a. Sena ke sebōpeho feela tsa khouto, taelo ha a hloke dileibole li-byte Bom kapa phatlalatso khouto ka xML.
ba ikhopolang ho kahamahanyo
Tikolohong e hore sebedisa matshwaonyana 8-batla a ea sebetsa le bapisoa le disete tse ling selotlolo bajt tlhaku, UTF-8 o na le le menyetla e latelang:
- Pele bajt khoutu tatelano na le boitsebiso bo mabapi le bolelele ba eona. Sena se eketsa bokgoni ba ho batla ho toba.
- Nolofalitse ho fumana e le qalo ea letshwao e le ho qala bajt e fokolang ho e mengata e fapaneng tse sa fetoheng tsa melao ea boitšoaro.
- Ha ho motsoako bajt makgabane.
Bapisa melemo
UTF-8 khouto e diseke ee. Empa ha sebelisoa bakeng sa ho khouto East litlhaku tsa Asia (Sechaena, Japanese, Korean, mongolo Chinese sebelisang matšoao) sebediswa tatellanong 3-bajt. Hape UTF-8 khouto ke tlaasana ho mefuta e meng ea Coding sebetsa lebelo. A binary ho di hlopha mela e hlahisa sephetho tšoana le binary ho di hlopha Unicode.
Sekemeng tlhaku khouto
Sekemeng tlhaku khouto kenyelletsa ditokiseletso khouto disymbol foromo le mokhoa bakeng sa ba se nang balekane bajt diyuniti sebakeng khoutu ya. Ho fumana hore na leqheka la khouto Unicode tekanyetso e fana ka tshebediso ya e ka lekhetlo la pele bajt odara letšoao (Bom, bajt odara letšoao).
Ha Bom ka UTF-8 tšobotsi la tag e felle feela ka ho bolela le ho sebelisa mefuta e meng ea Coding. Mathata a ka beha endian UTF-8 na, e le lona khouto unit trust boholo ke bajt ngoe. Sebedisa Bom bakeng sa mofuta ona oa tsoaneng e e ha hlokahala kapa kgothaletswa. Bom ka 'na etsahala ka temana ea ho sokolohela ho tloha codings tse ling sebelisa bajt odara letšoao kapa saena bakeng sa UTF-8 khouto. Ke tatelano ya 3 li-byte EF BB 16 16 BF 16.
Tsela ea ho seta UTF-8 khouto
The HTML Coding UTF-8 e hlomamisa le khoutu e latelang:
Head
Meta-http-equiv = "Content-Mofuta" dikahare = "ho mongolo / HTML; charset = utf-8" ˃
Ka PHP UTF-8 khouto e behiloeng ka sebedisa platform () mosebetsi qalong ea faele ka mor'a ho beha phoso khumo boemo ba boleng:
˂? Php
error_reporting (it-1);
platform ( "Content-Type: mongolo o / HTML; charset = utf-8 ');
Ho hokahanya ho polokelongtshedimosetso MySQL UTF-8 khouto e beha:
˂? Php
mysql_set_charset ( 'utf8');
The CSS-faele khouto ke litlhaku UTF-8 e boletsweng ka tsela e latelang:
@charset "utf-8";
Ha u boloka difaele tsa mefuta eohle khetha UTF-8 khouto ntle Bom, ho seng joalo site ke ke sebetsa. Ho etsa sena ka DreamWeave lokela ho khetha menu ya ntho "diphetolo - Page Properties - Title / khouto" ho fetola khouto ho UTF-8. Lateloa ke reloading leqephe, tlosa letšoao cheke ho tloha "Connect Unicode saena (Bom)» le ho e sebelisa liphetoho tseo. Ha ho mongolo efe kapa efe e leqepheng la kapa k'homphieutheng, ho ile ha kenyelletsoa tsela e 'ngoe tsoaneng e, e ke ho hlokahala hore ho botjha kena kapa botjha encode. Ha u sebetsa ka lipoleloana kamehla, le be le bonnete ba hore sebelisa modifier appa.
U ka boela ua boloka faele ka UTF-8 khouto ka "Notepad" ea Windows. Ka mor'a ho khetha menu ntho "File - Boloka As ..." ho kenya foromo hlokahalang tsa khouto le boloka faele ka UTF-8.
Ka mongolo o mohlophisi Notepad ++, haeba beha ka ntle ho UTF-8, ka tsela e menu ya ntho "sokolla ho UTF-8 ntle Bom» fetola botho ba ka le boloka ka UTF-8.
ho na le ho na mefuta e meng
Moelelong oa globalization, moo meeli ea lipolotiki le ea puo ba hlakoloa, semelo dikelaka hore na litšobotsi tse sebakeng seo, ke tsa tšebeliso e nyenyane. Unicode ke e le 'ngoe le ditlhaka sete hore e tshehetsa localizations tsohle. A UTF-8 - ka mohlala oa ho kenya tshebetsong e loketseng ea Unicode, e leng:
- Ho tshehetsa e mengata e fapaneng lisebelisoa, ho akarelletsa le sebeletsana le khouto ASCII;
- Ho manganga ho ya data ho khopama;
- e bonolo le e atlehang ka ho kalafo ya;
- ke sethaleng ikemetseng.
Le qaleha ea UTF-8 khang ka seo mofuta oa khouto kapa tlhaku sete e molemo, ho ba lefeela.
Similar articles
Trending Now