1*91e1e26aSAlexander Pyhalov /* 2*91e1e26aSAlexander Pyhalov * CDDL HEADER START 3*91e1e26aSAlexander Pyhalov * 4*91e1e26aSAlexander Pyhalov * The contents of this file are subject to the terms of the 5*91e1e26aSAlexander Pyhalov * Common Development and Distribution License (the "License"). 6*91e1e26aSAlexander Pyhalov * You may not use this file except in compliance with the License. 7*91e1e26aSAlexander Pyhalov * 8*91e1e26aSAlexander Pyhalov * You can obtain a copy of the license at src/OPENSOLARIS.LICENSE 9*91e1e26aSAlexander Pyhalov * or http://www.opensolaris.org/os/licensing. 10*91e1e26aSAlexander Pyhalov * See the License for the specific language governing permissions 11*91e1e26aSAlexander Pyhalov * and limitations under the License. 12*91e1e26aSAlexander Pyhalov * 13*91e1e26aSAlexander Pyhalov * When distributing Covered Code, include this CDDL HEADER in each 14*91e1e26aSAlexander Pyhalov * file and include the License file at src/OPENSOLARIS.LICENSE. 15*91e1e26aSAlexander Pyhalov * If applicable, add the following below this CDDL HEADER, with the 16*91e1e26aSAlexander Pyhalov * fields enclosed by brackets "[]" replaced with your own identifying 17*91e1e26aSAlexander Pyhalov * information: Portions Copyright [yyyy] [name of copyright owner] 18*91e1e26aSAlexander Pyhalov * 19*91e1e26aSAlexander Pyhalov * CDDL HEADER END 20*91e1e26aSAlexander Pyhalov */ 21*91e1e26aSAlexander Pyhalov 22*91e1e26aSAlexander Pyhalov /* 23*91e1e26aSAlexander Pyhalov * Copyright (c) 1997, by Sun Microsystems, Inc. 24*91e1e26aSAlexander Pyhalov * All rights reserved. 25*91e1e26aSAlexander Pyhalov */ 26*91e1e26aSAlexander Pyhalov 27*91e1e26aSAlexander Pyhalov #include <stdio.h> 28*91e1e26aSAlexander Pyhalov #include <stdlib.h> 29*91e1e26aSAlexander Pyhalov #include <errno.h> 30*91e1e26aSAlexander Pyhalov #include <sys/types.h> 31*91e1e26aSAlexander Pyhalov 32*91e1e26aSAlexander Pyhalov #include "tab_lookup.h" /* table lookup data types */ 33*91e1e26aSAlexander Pyhalov 34*91e1e26aSAlexander Pyhalov #define MSB 0x80 /* most significant bit */ 35*91e1e26aSAlexander Pyhalov #define MBYTE 0x8e /* multi-byte (4 byte character) */ 36*91e1e26aSAlexander Pyhalov #define PMASK 0xa0 /* plane number mask */ 37*91e1e26aSAlexander Pyhalov #define ONEBYTE 0xff /* right most byte */ 38*91e1e26aSAlexander Pyhalov 39*91e1e26aSAlexander Pyhalov /* non-identified character */ 40*91e1e26aSAlexander Pyhalov #define UTF8_NON_ID_CHAR1 0xEF 41*91e1e26aSAlexander Pyhalov #define UTF8_NON_ID_CHAR2 0xBF 42*91e1e26aSAlexander Pyhalov #define UTF8_NON_ID_CHAR3 0xBD 43*91e1e26aSAlexander Pyhalov 44*91e1e26aSAlexander Pyhalov enum _USTATE { C0, C1 }; 45*91e1e26aSAlexander Pyhalov 46*91e1e26aSAlexander Pyhalov 47*91e1e26aSAlexander Pyhalov 48*91e1e26aSAlexander Pyhalov 49*91e1e26aSAlexander Pyhalov /* 50*91e1e26aSAlexander Pyhalov * Actual conversion; called from iconv() 51*91e1e26aSAlexander Pyhalov * Input is UTF-8 data. 52*91e1e26aSAlexander Pyhalov * first convert to UCS2 53*91e1e26aSAlexander Pyhalov */ 54*91e1e26aSAlexander Pyhalov size_t 55*91e1e26aSAlexander Pyhalov _icv_iconv(_icv_state *st, char **inbuf, size_t *inbytesleft, 56*91e1e26aSAlexander Pyhalov char **outbuf, size_t *outbytesleft) 57*91e1e26aSAlexander Pyhalov { 58*91e1e26aSAlexander Pyhalov /* 59*91e1e26aSAlexander Pyhalov * Actual conversion; called from iconv() 60*91e1e26aSAlexander Pyhalov */ 61*91e1e26aSAlexander Pyhalov 62*91e1e26aSAlexander Pyhalov char c1, c2; 63*91e1e26aSAlexander Pyhalov int n, unidx; 64*91e1e26aSAlexander Pyhalov unsigned long ibm_code; 65*91e1e26aSAlexander Pyhalov 66*91e1e26aSAlexander Pyhalov #ifdef DEBUG 67*91e1e26aSAlexander Pyhalov fprintf(stderr, "========== iconv(): IBM --> UTF8 ==========\n"); 68*91e1e26aSAlexander Pyhalov #endif 69*91e1e26aSAlexander Pyhalov 70*91e1e26aSAlexander Pyhalov if (st == NULL) { 71*91e1e26aSAlexander Pyhalov errno = EBADF; 72*91e1e26aSAlexander Pyhalov return ((size_t) -1); 73*91e1e26aSAlexander Pyhalov } 74*91e1e26aSAlexander Pyhalov 75*91e1e26aSAlexander Pyhalov if (inbuf == NULL || *inbuf == NULL) { /* Reset request. */ 76*91e1e26aSAlexander Pyhalov st->ustate = C0; 77*91e1e26aSAlexander Pyhalov st->_errno = 0; 78*91e1e26aSAlexander Pyhalov return ((size_t) 0); 79*91e1e26aSAlexander Pyhalov } 80*91e1e26aSAlexander Pyhalov 81*91e1e26aSAlexander Pyhalov st->_errno = 0; /* reset internal errno */ 82*91e1e26aSAlexander Pyhalov errno = 0; /* reset external errno */ 83*91e1e26aSAlexander Pyhalov 84*91e1e26aSAlexander Pyhalov /* a state machine for interpreting UTF8 code */ 85*91e1e26aSAlexander Pyhalov while (*inbytesleft > 0 && *outbytesleft > 0) { 86*91e1e26aSAlexander Pyhalov switch (st->ustate) { 87*91e1e26aSAlexander Pyhalov case C0 : 88*91e1e26aSAlexander Pyhalov st->keepc[0] = (**inbuf); 89*91e1e26aSAlexander Pyhalov st->ustate = C1; 90*91e1e26aSAlexander Pyhalov break; 91*91e1e26aSAlexander Pyhalov 92*91e1e26aSAlexander Pyhalov case C1 : 93*91e1e26aSAlexander Pyhalov st->keepc[1] = (**inbuf); 94*91e1e26aSAlexander Pyhalov n = ibm_to_utf8(st, *outbuf, *outbytesleft); 95*91e1e26aSAlexander Pyhalov if (n > 0) { 96*91e1e26aSAlexander Pyhalov (*outbuf) += n; 97*91e1e26aSAlexander Pyhalov (*outbytesleft) -= n; 98*91e1e26aSAlexander Pyhalov } else { 99*91e1e26aSAlexander Pyhalov st->_errno = errno; 100*91e1e26aSAlexander Pyhalov return((size_t)-1); 101*91e1e26aSAlexander Pyhalov } 102*91e1e26aSAlexander Pyhalov st->ustate = C0; 103*91e1e26aSAlexander Pyhalov st->_errno = 0; 104*91e1e26aSAlexander Pyhalov break; 105*91e1e26aSAlexander Pyhalov 106*91e1e26aSAlexander Pyhalov default: /* should never come here */ 107*91e1e26aSAlexander Pyhalov st->_errno = errno = EILSEQ; 108*91e1e26aSAlexander Pyhalov st->ustate = C0; /* reset state */ 109*91e1e26aSAlexander Pyhalov break; 110*91e1e26aSAlexander Pyhalov } 111*91e1e26aSAlexander Pyhalov 112*91e1e26aSAlexander Pyhalov 113*91e1e26aSAlexander Pyhalov (*inbuf)++; 114*91e1e26aSAlexander Pyhalov (*inbytesleft)--; 115*91e1e26aSAlexander Pyhalov 116*91e1e26aSAlexander Pyhalov if (st->_errno) { 117*91e1e26aSAlexander Pyhalov #ifdef DEBUG 118*91e1e26aSAlexander Pyhalov fprintf(stderr, "!!!!!\tst->_errno = %d\tst->ustate = %d\n", 119*91e1e26aSAlexander Pyhalov st->_errno, st->ustate); 120*91e1e26aSAlexander Pyhalov #endif 121*91e1e26aSAlexander Pyhalov break; 122*91e1e26aSAlexander Pyhalov } 123*91e1e26aSAlexander Pyhalov 124*91e1e26aSAlexander Pyhalov if (errno) 125*91e1e26aSAlexander Pyhalov return((size_t)-1); 126*91e1e26aSAlexander Pyhalov } 127*91e1e26aSAlexander Pyhalov 128*91e1e26aSAlexander Pyhalov if (*outbytesleft == 0) { 129*91e1e26aSAlexander Pyhalov errno = E2BIG; 130*91e1e26aSAlexander Pyhalov return((size_t)-1); 131*91e1e26aSAlexander Pyhalov } 132*91e1e26aSAlexander Pyhalov return (*inbytesleft); 133*91e1e26aSAlexander Pyhalov } 134*91e1e26aSAlexander Pyhalov 135*91e1e26aSAlexander Pyhalov /* 136*91e1e26aSAlexander Pyhalov * IBM code --> (Unicode) 137*91e1e26aSAlexander Pyhalov * Unicode --> UTF8 (FSS-UTF) 138*91e1e26aSAlexander Pyhalov * (File System Safe Universal Character Set Transformation Format) 139*91e1e26aSAlexander Pyhalov * Return: > 0 - converted with enough space in output buffer 140*91e1e26aSAlexander Pyhalov * = 0 - no space in outbuf 141*91e1e26aSAlexander Pyhalov */ 142*91e1e26aSAlexander Pyhalov int ibm_to_utf8(st, buf, buflen) 143*91e1e26aSAlexander Pyhalov _icv_state *st; 144*91e1e26aSAlexander Pyhalov char *buf; 145*91e1e26aSAlexander Pyhalov size_t buflen; 146*91e1e26aSAlexander Pyhalov { 147*91e1e26aSAlexander Pyhalov unsigned long ibm_val; /* Big-5 value */ 148*91e1e26aSAlexander Pyhalov int unidx; /* Unicode index */ 149*91e1e26aSAlexander Pyhalov unsigned long uni_val; /* Unicode */ 150*91e1e26aSAlexander Pyhalov 151*91e1e26aSAlexander Pyhalov ibm_val = ((st->keepc[0]&ONEBYTE) << 8) + (st->keepc[1]&ONEBYTE); 152*91e1e26aSAlexander Pyhalov #ifdef DEBUG 153*91e1e26aSAlexander Pyhalov fprintf(stderr, "%x\t", ibm_val); 154*91e1e26aSAlexander Pyhalov #endif 155*91e1e26aSAlexander Pyhalov 156*91e1e26aSAlexander Pyhalov 157*91e1e26aSAlexander Pyhalov unidx = bisearch(ibm_val, st, st->table_size); 158*91e1e26aSAlexander Pyhalov 159*91e1e26aSAlexander Pyhalov if (unidx >= 0) 160*91e1e26aSAlexander Pyhalov { 161*91e1e26aSAlexander Pyhalov if ( st->left_to_right ) 162*91e1e26aSAlexander Pyhalov uni_val = st->table[unidx].right_code; 163*91e1e26aSAlexander Pyhalov else 164*91e1e26aSAlexander Pyhalov uni_val = st->table[unidx].left_code; 165*91e1e26aSAlexander Pyhalov } 166*91e1e26aSAlexander Pyhalov 167*91e1e26aSAlexander Pyhalov #ifdef DEBUG 168*91e1e26aSAlexander Pyhalov fprintf(stderr, "unidx = %d, unicode = %x\t", unidx, uni_val); 169*91e1e26aSAlexander Pyhalov #endif 170*91e1e26aSAlexander Pyhalov 171*91e1e26aSAlexander Pyhalov if (unidx >= 0) { /* do Unicode to UTF8 conversion */ 172*91e1e26aSAlexander Pyhalov if (uni_val > 0x0000 && uni_val <= 0x07ff) { 173*91e1e26aSAlexander Pyhalov if (buflen < 2) { 174*91e1e26aSAlexander Pyhalov #ifdef DEBUG 175*91e1e26aSAlexander Pyhalov fprintf(stderr, "outbuf overflow in ibm_to_utf8()!!\n"); 176*91e1e26aSAlexander Pyhalov #endif 177*91e1e26aSAlexander Pyhalov errno = E2BIG; 178*91e1e26aSAlexander Pyhalov return(0); 179*91e1e26aSAlexander Pyhalov } 180*91e1e26aSAlexander Pyhalov *buf = (char)((uni_val >> 6) & 0x1f) | 0xc0; 181*91e1e26aSAlexander Pyhalov *(buf+1) = (char)(uni_val & 0x3f) | 0x80; 182*91e1e26aSAlexander Pyhalov #ifdef DEBUG 183*91e1e26aSAlexander Pyhalov fprintf(stderr, "%x %x\n", *buf&ONEBYTE, *(buf+1)&ONEBYTE); 184*91e1e26aSAlexander Pyhalov #endif 185*91e1e26aSAlexander Pyhalov return(2); 186*91e1e26aSAlexander Pyhalov } 187*91e1e26aSAlexander Pyhalov if (uni_val > 0x0800 && uni_val <= 0xffff) { 188*91e1e26aSAlexander Pyhalov if (buflen < 3) { 189*91e1e26aSAlexander Pyhalov #ifdef DEBUG 190*91e1e26aSAlexander Pyhalov fprintf(stderr, "outbuf overflow in ibm_to_utf8()!!\n"); 191*91e1e26aSAlexander Pyhalov #endif 192*91e1e26aSAlexander Pyhalov errno = E2BIG; 193*91e1e26aSAlexander Pyhalov return(0); 194*91e1e26aSAlexander Pyhalov } 195*91e1e26aSAlexander Pyhalov *buf = (char)((uni_val >> 12) & 0xf) | 0xe0; 196*91e1e26aSAlexander Pyhalov *(buf+1) = (char)((uni_val >>6) & 0x3f) | 0x80; 197*91e1e26aSAlexander Pyhalov *(buf+2) = (char)(uni_val & 0x3f) | 0x80; 198*91e1e26aSAlexander Pyhalov #ifdef DEBUG 199*91e1e26aSAlexander Pyhalov fprintf(stderr, "%x %x %x\n", *buf&ONEBYTE, *(buf+1)&ONEBYTE, *(buf+2)&ONEBYTE); 200*91e1e26aSAlexander Pyhalov #endif 201*91e1e26aSAlexander Pyhalov return(3); 202*91e1e26aSAlexander Pyhalov } 203*91e1e26aSAlexander Pyhalov } 204*91e1e26aSAlexander Pyhalov 205*91e1e26aSAlexander Pyhalov /* can't find a match in IBM --> UTF8 table or illegal UTF8 code */ 206*91e1e26aSAlexander Pyhalov if (buflen < 3) { 207*91e1e26aSAlexander Pyhalov #ifdef DEBUG 208*91e1e26aSAlexander Pyhalov fprintf(stderr, "outbuf overflow in ibm_to_utf8()!!\n"); 209*91e1e26aSAlexander Pyhalov #endif 210*91e1e26aSAlexander Pyhalov errno = E2BIG; 211*91e1e26aSAlexander Pyhalov return(0); 212*91e1e26aSAlexander Pyhalov } 213*91e1e26aSAlexander Pyhalov 214*91e1e26aSAlexander Pyhalov *buf = (char)UTF8_NON_ID_CHAR1; 215*91e1e26aSAlexander Pyhalov *(buf+1) = (char)UTF8_NON_ID_CHAR2; 216*91e1e26aSAlexander Pyhalov *(buf+2) = (char)UTF8_NON_ID_CHAR3; 217*91e1e26aSAlexander Pyhalov 218*91e1e26aSAlexander Pyhalov #ifdef DEBUG 219*91e1e26aSAlexander Pyhalov fprintf(stderr, "%c %c %c\n", *buf, *(buf+1), *(buf+2)); 220*91e1e26aSAlexander Pyhalov #endif 221*91e1e26aSAlexander Pyhalov return(3); 222*91e1e26aSAlexander Pyhalov } 223