ఫారమ్‌లు, అనువర్తనాలు మరియు ఇతర భౌతిక పత్రాలపై డేటాను మాన్యువల్‌గా నమోదు చేయడానికి చాలా కంపెనీలు మానవ కార్మికులను ఉపయోగిస్తాయి. చాలా ఖచ్చితమైనది అయినప్పటికీ, ఇది నెమ్మదిగా మరియు ఖరీదైనది. ఈ ప్రక్రియను ఆటోమేట్ చేయడానికి AWS టెక్స్ట్రాక్ట్ యంత్ర అభ్యాసాన్ని ఉపయోగిస్తుంది.

AWS టెక్స్ట్రాక్ట్ ఎందుకు ఉపయోగించాలి?

టెక్స్ట్రాక్ట్ ఖచ్చితంగా ఆప్టికల్ క్యారెక్టర్ రికగ్నిషన్ సాధనం మాత్రమే కాదు: టెస్రాక్ట్ ఓసిఆర్ వంటి అనేక ఓపెన్ సోర్స్ సొల్యూషన్స్ ఉచితంగా అందుబాటులో ఉన్నాయి. మరింత తెలుసుకోవడానికి మీరు దీన్ని ఉపయోగించడానికి మా గైడ్‌ను చదవవచ్చు.

అయితే, టెక్స్ట్‌రాక్ట్ కేవలం OCR కంటే చాలా ఎక్కువ, ఎందుకంటే ఇది ఫారమ్‌లు, టేబుల్స్ మరియు ఇతర పత్రాల నుండి డేటాను విశ్లేషించడం మరియు సేకరించడం. ఇది ముఖ్యమైన కీ-విలువ జతలు, పట్టికలు మరియు ఇతర కీ తీగలను తీయగల సామర్థ్యాన్ని కలిగి ఉంటుంది, ఇది స్కాన్ చేసిన పత్రాలు మరియు డేటాబేస్ మధ్య ఇంటర్‌ఫేస్‌గా సమర్థవంతంగా ఉపయోగపడుతుంది (మీరు ఆ ఆటోమేషన్‌ను మీరే సెటప్ చేసుకోవలసి ఉంటుంది).

ఇతర ఆకర్షణ ఏమిటంటే, టెక్స్ట్రాక్ట్ OCR ను పూర్తిగా నిర్వహించే క్లౌడ్ సేవగా అందుబాటులో ఉంచుతుంది. OCR ను నిర్వహించడానికి మరియు అవుట్‌పుట్‌ను అర్థం చేసుకోవడానికి మీరు మీ స్వంత అప్లికేషన్ సర్వర్‌లను కాన్ఫిగర్ చేయవలసిన అవసరం లేదు; టెక్స్‌ట్రాక్ట్‌ను కాన్ఫిగర్ చేసి, పత్రాలను పంపండి, అది ఫలితాలను ఇస్తుంది.

ఇప్పటికీ మాన్యువల్ డేటా ఎంట్రీ చేసే సంస్థల కోసం, టెక్స్ట్రాక్ట్ మీకు ఫైల్‌ను సేవ్ చేస్తుంది చాలా కీబోర్డుపై టైప్ చేయడానికి గడిపిన మానవ-గంటలలో, మరియు ఇది ఒకేసారి అనేక వస్తువులను ప్రాసెస్ చేయగలదు, డేటా ఎంట్రీ వేగాన్ని బాగా పెంచుతుంది.

ధర పరంగా, పుస్తక పేజీలను స్కాన్ చేయడం వంటి ప్రత్యక్ష వచనానికి టెక్స్ట్రాక్ట్ చౌకగా ఉంటుంది. దాని కోసం, 1000 పేజీలకు 50 1.50 మాత్రమే ఖర్చవుతుంది. పట్టికలను అన్వయించడానికి, 1000 పేజీలకు 00 15.00 ఖర్చవుతుంది. కీ-విలువ జతలకు, 1000 పేజీలకు. 50.00 ఖర్చవుతుంది. ఇది ఖచ్చితంగా ఉచితం కానప్పటికీ, మానవీయంగా దీన్ని మానవునికి చెల్లించడం మంచిది.

టెక్స్ట్‌రాక్ట్ చాలా ఖచ్చితమైనది, కానీ యంత్రం ఏదో తప్పు చేస్తుందని మీరు ఆందోళన చెందుతుంటే, AWS కూడా దీనికి పరిష్కారం కలిగి ఉంది. అమెజాన్ యొక్క వృద్ధి చెందిన ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ వర్క్‌ఫ్లోను ఉపయోగించడానికి మీరు టెక్స్‌ట్రాక్ట్‌ను కాన్ఫిగర్ చేయవచ్చు, ఇది స్వయంచాలకంగా పేలవమైన విశ్వసనీయత ఫలితాలను సమీక్ష కోసం మానవులకు నివేదిస్తుంది.

టెక్స్ట్రాక్ట్ ఉపయోగించి

టెక్స్ట్రాక్ట్ మేనేజ్మెంట్ కన్సోల్కు వెళ్లి “ప్రారంభించు” క్లిక్ చేయండి. కన్సోల్‌ను మాన్యువల్‌గా ఉపయోగించి, మీరు ఇక్కడ బటన్‌ను ఉపయోగించి పత్రాలను అప్‌లోడ్ చేయవచ్చు:

టెక్స్ట్రాక్ట్ వెంటనే దాన్ని ప్రాసెస్ చేస్తుంది. టెక్స్‌ట్రాక్ట్‌ను అంత ఉపయోగకరంగా మార్చడం ఏమిటో మీరు త్వరగా చూస్తారు; ఈ W2 మాడ్యూల్‌లోని ఏ వచన భాగాలు ముఖ్యమైనవో అతనికి తెలుసు, అవి కీ-విలువ జతలలో భాగం, అవి పట్టికలలో భాగం మరియు ఏవి విస్మరించగలవు.

కుడి వైపున, మీరు అవుట్పుట్ను కనుగొంటారు, ఇది అన్ని ముడి తీగలను, కీ-విలువ జతలు మరియు అన్ని డేటా పట్టికలను చూపుతుంది. ఇవి పరస్పరం ప్రత్యేకమైనవి కాదని గమనించండి, ఈ సందర్భంలో అతను పట్టికలలో భాగమైన కీ-విలువ జతలను కనుగొన్నాడు.

మీరు ఫలితాలను డౌన్‌లోడ్ చేసుకోవచ్చు మరియు మీరు అన్ని పట్టికలు మరియు కీ-విలువ జతల యొక్క CSV ఫైల్‌ను, అలాగే ముడి టెక్స్ట్ అవుట్‌పుట్ యొక్క టెక్స్ట్ ఫైల్‌ను కనుగొంటారు.

మీరు టెక్స్‌ట్రాక్ట్‌ను ఆటోమేట్ చేయాలనుకుంటే, మీరు AWS CLI లేదా API ని ఉపయోగించాల్సి ఉంటుంది. టెక్స్ట్‌రాక్ట్ కమాండ్ లైన్ నుండి దానితో పనిచేయడానికి దాని స్వంత ఆదేశాలను కలిగి ఉంది.

మీరు పత్రాన్ని బేస్ 64 ఎన్‌కోడ్ చేసిన డాక్యుమెంట్ బైట్‌లుగా సీరియలైజ్ చేయవచ్చు లేదా దానిని ఎస్ 3 కి అప్‌లోడ్ చేయవచ్చు మరియు టెక్స్‌ట్రాక్ట్‌ను ఎక్కడ కనుగొనాలో ఒక కీని ఇవ్వండి. కాబట్టి మీరు ఉపయోగించవచ్చు analyze-document ఉద్యోగం ప్రారంభించడానికి:

aws textract analyze-document --document '{"S3Object":{"Bucket":"bucket","Name":"document"}}' --feature-types '["TABLES","FORMS"]'

ఇది సింక్రోనస్ ఆపరేషన్, కానీ ఉద్యోగాన్ని ప్రారంభించి, ఫలితాలను మానవీయంగా తిరిగి పొందడం ద్వారా దీనిని అసమకాలికంగా విశ్లేషించవచ్చు.

aws textract get-document-analysis --job-id df7cf32ebbd2a5de113535fcf4d921926a701b09b4e7d089f3aebadb41e0712b --max-results 1000

Source link