ايجاد کلاستر شبه توزيعي Spark+ Hadoop در ويندوز + ماشين مجازي آم

آخرین مطالب

امکانات وب

ايجاد کلاستر شبه توزيعي Spark+ Hadoop در ويندوز + ماشين مجازي آم

ايجاد کلاستر شبه توزيعي Spark+ Hadoop در ويندوز + ماشين مجازي آماده

فرمت فايل دانلودي: .rar
فرمت فايل اصلي: doc
تعداد صفحات: 92
حجم فايل: 5344 کيلوبايت
قيمت: 15000 تومان

در مواردي که بکارگيري ابزارهاي مديريت Big Data با اهداف يادگيري، تست، آموزش و توسعه در يک چارچوپ پردازش خوشه اي مثل Hadoop يا Apache Spark مد نظر باشد، معمولا" دو روش براي راه اندازي کلاستر آزمايشي پيشنهاد ميشود : روش اول ، استفاده از بسته هاي آماده کلاستر مجازي که توسط شرکت هايي مثل کلودرا و هورتون ورکز ارائه شده .اين روش عليرغم مزايايي همچون راه اندازي سرويسهاي گوناگون و عدم نياز به پيکربندي از طرف کاربر، داراي محدوديتهاي زيادي هم هست. از جمله اينکه تقريبا" همه’ اين شرکتها دسترسي کاربران ايراني به محصولاتشان را تحريم کرده اند، چندين گيگا بايت حجم دارند و براي راه اندازي نياز به کامپيوتري با حافظه رم نسبتا" بالا دارند.(حداقل 8 –توصيه شده 16 گيگا بايت) دارند.
روش دوم که ما در اين آموزش از آن استفاده کرده ايم راه اندازي دستي (Manual) کلاستر روي يک ماشين واحد ، و با معماري شبه توزيعي است. در اين روش، تمام مراحل پيکربندي را خودمان انجام ميدهيم و خصوصيات و اجزاي کلاستري که ايجاد ميکنيم را با توجه به موضوع در دست پژوهش و امکانات سخت افزاري که در اختيار داريم ميتوانيم تعيين کنيم.
محصول حاضر ، با توجه به نوپا بودن مفاهيم Big data و کمبود منابع کاربردي و محدوديت هايي که در پژوهشهاي حوزه Big Data براي دانش پژوهان، خصوصا " در دسترسي و بکارگيري ابزارها وجود دارد،تهيه گرديده و اهداف اصلي زير را دنبال ميکند:
الف) علاقمندان به فعاليت در زمينه Big Data ، شخصا" مهارت ايجادکلاستري را که براي اهداف تجقيقاتي نياز دارند، بصورت اصولي در کوتاه ترين زمان ممکن فرا گيرند.
ب) ارائه ماشين مجازي آماده کلاستر نيمه نوزيعي Hadoop/Spark براي کاهش محدوديتها در دسترسي به ابزارهاي حوزه Big Data
الف) رويکردي که در اين آموزش به آن توجه خاص شده، اين است که هر فرد علاقمند به کار با ابزارهاي Big Data ، بتواند با در دسترس ترين امکانات سخت افزاري و نرم افزاري مثل يک لپ تاپ يا PC معمولي ويندوز ، با صرف حداقل هزينه و در کوتاه ترين زمان ممکن ، مهارت ايجاد و کار با کلاستري را که براي اهداف تست و يادگيري نياز دارد را شخصا" فرا گيرد. در يک دوره تحقيقي چند ماهه ،براي رسيدن به راهکاري کارامد، قابل اطمينان ، مطابقت بالا با محيط واقعي و در عين ساده انواع روشها ، بسترها و نرم افزارهاي مختلف مجازيسازي مثل Virtualbox ، Hyper-V ، Docker ، Vmware و انواع توزيعهاي دسکتاپ و سرور لينوکس بر پايه Ubuntu، RHEL، Debian، Pacman و RPM و توزيعهاي مختلف هدوپ و اسپارک ، را براي انتخاب مناسبترين گزينه بررسي و تست کرديم.بنابراين بکارکارگيري هر کدام از ابزارها ، نرم افزارها، و نسخه هاي بکارگرفته شده در اين آموزش بر دلايل منطقي و تجربي قابل دفاعي استوار است،که پرداختن به آنها خارج از حوصله’ اين مقاله ميباشد. روش کلي کار در اين آموزش اين است که با نرم افزار مجازيسازي Vmware workstation در محيط ويندوز يک سرور مجازي لينوکس CentOs minimal ايجاد ميکنيم، و کلاستر مجازي هدوپ را با معماري شبه توزيعي(Pseudo Distributed Mode) در بستر اين سرور مجازي بصورت قدم بقدم راه اندازي ميکنيم.در گام بعدي، به پيکربندي چارچوب پردازشي Apache Spark روي اين کلاستر ميپردازيم. بعد از راه اندازي کلاستر هدوپ/اسپارک با استفاده از چندين مثال و سناريوي عملي نحوه کار و مديريت کلاستر پردازشي هدوپ/اسپارک ، از محيط ويندوز را با تمام جزئيات بهمراه بيش از 100 تصوير از تک تک مراحل کار پيش ميبريم. همانطور که ميدانيد چارچوب Hadoop از دولايه’ اصلي فايل سيستم توزيع شده Hdfs و مدير خوشه Yarn تشکيل شده و پارادايم پردازشي آن بر مبناي مدل Map-reduce پايه ميباشد. مدل پايه’ Map-reduce ضمن اينکه مدتها بعنوان مدل اصلي در پلتفرم هاي Big Data مورد استفاده قرار گرفته، ليکن بدليل هزينه’ زماني و کندي در پردازش job هاي تکراري ،خصوصا" در پردازشهاي نزديک به زمان واقعي (real-time) همواره مورد انتقاده بوده. بطوريکه ظهور مدل پردازش بسته اي مقيم در حافظه اصلي (in-memory Batch processing) و توسعه’ موتورهاي پردازشي سريعتر مثل Apache Spark ، اخيرا" توسعه دهندگان هدوپ را ناچار کرد که بفکر حذف لايه پردازش و مديريت کلاستر Yarn از لايه’ فايل سيستم HDFS در نسخه جديد هدوپ بيفتند و بدين ترتيب عملا" مدل Map-reduce پايه بعنوان مدل پردازشي پيش کسوت چارچوبهاي پردازشي Big Data با سابقه اي درخشان بازنشسته شد. انگيزه’ اصلي از شکل گيري چارچوب پردازشي Apache Spark بعنوان يکي از زير پروژه هاي هدوپ جبران نقايص مدل پايه نگاشت-کاهش است. هسته اسپارک صرفا" يک موتور پردازشي است و فاقد هرگونه امکان ذخيره سازي است. ولي اسپارک اين کمبود را با انعطاف پذيري بالايي که در يکپارچه شدن و تغذيه از ساير فايل سيستمها و پايگاههاي داده هاي رابطه اي و NOsql خارجي، بنحو موثري جبران ميکند. يکي از مزاياي معماري تلفيقي استفاده شده در اين آموزش اين است که درحين کار با سناريوها و مثالها، سرعت پردازش مدل پايه Map-reduce ،را در مقايسه با زمانيکه موتور پردازشي اسپارک در تعامل با لايه hdfs هدوپ کار ميکند ، عملا" لمس خواهيم کرد.
پيشنيازهاي سخت افزاي و نرم افزاري براي پيکربندي کلاستر شبه توزيعي Hadoop/spark :
1. لپ تاپ يا PC با سيستم عامل ويندوز 7+ ، ترجيحا" 64 بيتي (اگر از سيستم عامل 32 بيتي استفاده ميکنيد بايد پيشنيازها را متناسب با سيستمهاي 32 بيتي تهيه فرماييد.)
2. اتصال به اينترنت و امکان دانلود بسته هاي اينترنتي(تا حجم 1GB)
3. حداقل GB4 حافظه رم داخلي و GB 10+ فضاي خالي هارد

ب) بدلايل زيادي ، براي اکثر ما کاربران ايراني ، يک سيستم کامپيوتري مفهومي معادل يک PC با سيستم عامل ويندوز را در ذهن تداعي ميکند . هر چند سعي شده هيچ نکته اي در آموزش از قلم نيفتد، اما چون ممکن است در آغاز، کار با دستورات محيط لينوکس براي پيکر بندي يک کلاستر پردازشي، با آزمون وخطا همراه بوده يا زمانبر باشد، لذا براي دسترسي همگاني بهمراه اين آموزش، اقدام به ارائه ماشين مجازي آماده نيمه توزيعي هدوپ/ اسپارک ، با پيکربندي کامل نموده ايم و فايل فشرده آنرا در کتابخانه ديجيتالي شخصي آپلود و لينک دانلود آنرا (باحجم 1 گيگابايت) در متن مقاله به اشتراک گذاشته ايم . نرم افزارهاي مورد نياز را قبلا" دانلود و نصب کرده ايم. اين ماشين مجازي احتياج به هيچگونه تنظيمات و پيکربندي نداشته، در يک PC ويندوز 64 بيتي با امکانات معمولي و با نصب نرم افزار مجازيسازي Vmware ، و يک نرم افزار شبيه ساز ترمينال لينوکس مثل Cygwin يا رابط puttyآماده استفاده ميباشد.ضمنا" ديتا ستهاي بکار گرفته شده در اين آموزش براي استفاده در فايل سيستم ماشين مجازي آماده موجود است.شما ميتوايد هر زمان که نياز داشتيد ، بدون نگراني از ايجاد تغيير در نسخه اصلي ، يک نمونه از ماشين مجازي را اکسترکت کرده، و با آن کار کنيد .
لطفا" براي مشاهده ويدئوي راه اندازي ماشين مجازي آماده کلاستر شبه توزيعي spark/ hdp اينجا کليک فرماييد.
http://www.aparat.com/v/omZV4

فهرست مطالب:
مقدمه
فصل اول: نصب SSH و Cygwin
ايجاد ماشين مجازي لينوکس CentOs 6.5 minimal با VMware workstation در ويندوز
تنظيم ويژگيهاي ماشين مجازي
استخراج مشخصات اينترفيسهاي ماشين مجازي
برقراري اتصال ssh از محيط ويندوز به ماشين لينوکس با ترمينال شبيه ساز Cygwin
ويرايشگر متني vi در لينوکس CentOS
تعيين آدرس Gatway شبکه در ماشين مجازي CentOS
تعيين HOSTNAME با قالب FQDN براي VM
اختصاص نام مستعار براي IP آدرس CentOS VM در ويندوز
تنظيمات دسترسي به اينترنت در ماشين مجازي Centos
دانلود و نصب نرم افزارهاي پيشنياز از اينترنت در CentOS VM
پيکربندي جاوا jdk-8
پيکربندي اينترفيس Ethernet ماشين مجازي CentOS
تست اتصال ssh ماشين محلي ويندوز و ماشين مجازي لينوکس
تاثيرات فايروال و فيلترينگ جداول IP در اتصالات شبکه
غير فعال کردن فيلترينگ جداول IP در ماشين مجازي لينوکس
تست فايروال و فيلترينگ جداول IP
تنظيم passwordless login بين ماشين محلي ويندوز و CentOS VM
تنظيم passwordless login داخلي ماشين مجازي CentOS
انتقال فايل از ماشين محلي ويندوز به CentOS VM
بررسي حالتهاي راه اندازي کلاستر Hadoop
معماري کلاستر Hadoop در حالت Pseudo Distributed Mode (شبه توزيع شده)
نحوه دانلود بسته باينريهاي Hadoop در ويندوز و انتقال آن به VM
نحوه دانلود بسته باينري Hadoop بطور مستقيم از محيط VM با ابزار wget
تنظيم متغير محلي جاوا و hadoop در فايل profile ماشين مجازي
ويرايش فايلهاي پيکربنده بندي hadoop براي حالت Pseudo Distributed Mode
راه اندازي demon هاي dfs و yarn
دسترسي به رابط تحت وب hdfs از مرورگر وب در ويندوز
دسترسي به Yarn web UI
کار با دستورات اصلي مديريت hdfs در کلاستر hadoop
ايجاد دايرکتوري کاربر در فايل سيستم hdfs
مانيتورينگ و اشکال يابي فرايندها در کلاستر hadoop با Log فايلها
تست عملکرد کلاستر شبه توزيعي هدوپ با مثال Wordcount Map-reduce
نحوه اجراي مثال Wordcount Map-reduce
دسترسي به فايل خروجي برنامه wordcount از طريق hdfs web UI
خواندن فايل خروجي برنامه از hdfs در ترمينال
توقف کلاستر هدوپ
راه اندازي چارچوب Apache Spark در کلاستر شبه توزيعي hadoop در حالت Local
مفاهيم پايه اي در چارچوب پردازشي آپاچي اسپارک
مزاياي موتور پردازشي آپاچي اسپارک نسبت به محيطهاي پردازشي مشابه
پوسته اسپارک (Spark-Shell)
ساختار داده اي ديتاستهاي توزيعي- منعطف (RDD) در اسپارک
مثال عملي spark- برنامه word Count در محيط پردازشي Apache Spark
ارسال ديتاست نمونه از ويندوز به VM
ايجاد دايرکتوري براي ذخيره ديتاست نمونه در hdfs
ارسال ديتاست از فايل سيستم VM به hdfs
ايجاد RDD با خواندن فايل ورودي از hdfs با Spark-Scala API
اعمال transformation براي شناسايي کلمات در متن
اعمال transformation براي تعيين جفتهاي کليد- مقدار
اعمال transformation براي کاهش کليدهاي مشابه
تثبيت RDD خروجي در حافظه اصلي
چاپ خروجي برنامه Wordcount Spark در ترمينال
مثال عملي spark : برنامه تطابق الگو در اسناد متني (Pattern matching) با Scala
استخراج تعداد بازديد کنندگان از وبسايت بر اساس زمان بازديد با Log file
مثال عملي spark- نمونه برنامه متن کاوي با Scala
مهاجرت دايرکتوري hadoop به خارج از دايرکتوري کاربر root
pyspark (رابط برنامه نويسي با زبان pyton در محيط آپاچه اسپارک)
مثال عملي spark : ايجاد برنامه wordcount با pyspark به زبان python
دانلود و کار با بسته’ ماشين مجازي آماده نيمه توزيعي hdp/spark
مثال عملي Spark Wordcount با بسته’ ماشين مجازي آماده نيمه توزيعي hdp/spark
لينک دانلود بسته’ ماشين مجازي آماده نيمه توزيعي hdp/spark

پرداخت با کليه کارتهاي عضو شتاب امکان پذير است.

جامع ترين و جديدترين مناب...

ما را در سایت جامع ترين و جديدترين مناب دنبال می کنید

برچسب : نویسنده : 07131e بازدید : 150 تاريخ : چهارشنبه 23 فروردين 1396 ساعت: 3:41

ايجاد کلاستر شبه توزيعي Spark+ Hadoop در ويندوز + ماشين مجازي آم

آخرین مطالب

امکانات وب

ايجاد کلاستر شبه توزيعي Spark+ Hadoop در ويندوز + ماشين مجازي آم

ايجاد کلاستر شبه توزيعي Spark+ Hadoop در ويندوز + ماشين مجازي آماده

آرشیو مطالب

پيوندهای روزانه

لینک دوستان

خبرنامه