نوشته شده توسط : مطلب پروژه

در این قسمت برخی از ابزارهای متن کاوی که اکثر آنها رایگان هستند معرفی می کنیم.

    پلاگین استخراج اطلاعات در rapidMiner
    rapidMiner یک فریم ورک کد باز معروف است یا به عبارتی یک workbench تحلیلات کسب و کار کامل با تمرکز شدید بر داده کاوی، متن کاوی و predictive analytics است. این ابزار از مجموعه گسترده ای از تکنیک های توصیفی و پیش بینانه برای ارائه آگاهی کافی به کاربر برای انجام تصمیم گیری مناسب تر استفاده می کند. این پلتفرم نرم افزاری توسط شرکتی با همین نام به عنوان محیطی یکپارچه برای یادگیری ماشین، متن کاوی، داده کاوی، predictive analytics و  business analytics توسعه داده شده است.
    RapidMiner Studio روی هم رفته بیش از ۱۵۰۰ عملیات برای همه کارهای مربوط به تحلیل داده حرفه ای انجام میدهد از تقسیم داده تا تحلیل مبتنی بر بازار این ابزار در بردارنده همه ابزارهایی است که برای اینکه بتوان از داده به نحو مفید استفاده کرد می باشد . به علاوه ابزارهایی برای متن کاوی، وب کاوی، automatic sentiment Analysis در فروم های بحث در اینترنت (sentiment analysis و opinion mining) و همین طور تحلیل سری های زمانی و پیش بینی هم در این ابزار وجود دارد.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    Information Extraction Plugin استفاده از تکنیک های استخراج اطلاعات در RapidMiner را میسر می کند. می توان از آن به عنوان اینترفیسی میان زبان طبیعی و IE یا روش های داده کاوی با استرخاج اطلاعات ارزشمند از اسناد یاد کرد.
    Extension متن کاوی در rapidminer از یک کلاس خاص برای کار با اسناد استفاده می کند: Document-class. این کلاس کل اسناد در ترکیب با متا اطلاعات دیگر را دربردارد. در مورد متن کاوی اسناد به نشانه های منحصر به فرد تقسیم می شوند که برای دسته بندی کل اسناد استفاده می شود. برای اهداف استخراج اطلاعات سند نشانه گذاری می شود (tokenize) و ترتیب این نشانه های حفظ می شود بنابراین نشانه گذارهایی در آن تعبیه شده که قادر به پردازش مجموعه های نمونه (examplesets)  استخراج شده از کلاس های اسناد هستند. به کاربردن این نشانه گذارها منجر به یک صفحه گسترده (spreadsheet) می شود که دربردارنده نشانه ها با یک ترتیب خاص یعنی همان طور که در سند یافت شده اند می باشد. هر نشانه شامل یک شماره خاص است که نشان می دهد از کدام واحد عمومی ایجاد شده است. برای مثال هر word-token یک جمله خاص دربردارنده شماره جمله است در حالی که  هر sentence-token از یک سند شامل شماره سند است.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    در این فرایند متن کاوی، یک سند لود می شود ، به exampleset ای حاوی نمونه ای که متن کامل سند را دارد تبدیل می شود و دو نشانه گذار (tokenizers) متن را به چندین نشانه (مثال یا نمونه ها) تبدیل می کند. سومین عملگر متن را به جمله ها تقسیم می کند و چهارمین عملگر جملات را به کلمات تبدیل می کند. پس از به اتمام رسیدن فرایند دیتاست به دست آمده حاوی نمونه هایی است که هر یک کلمه ای را نگهداری می کنند. به علاوه کلمات دربردارنده شماره جملات هستند و امکان دسترسی به همه کلمات یک جمله را میسر می کنند.
    دانلود نرم افزار رپدماینر 5.3
    NetOwl Extractor
    NetOwl Extractor ابتدا برای پرتقاضاترین برنامه های اطلاعاتی دولتی ساخته شد و مبتنی بر زبان شناسی محاسباتی پیشرفته و پردازش زبان طبیعی است. با آنالیز هوشمندانه ساختار و محتوای درون متن این ابزار می تواند به دقت اطلاعات کلیدی را شناسایی کند. این ابزار یک سیستم ایندکس گذاری اتوماتیک است که عبارات اصلی را در متن پیدا و کلاسیفای می کند مانند نام های شخصی، نام شرکت ها، نام مکان ها، تاریخ ها و … این ابزار همه نامه های یکسان را پیدا کرده و نام ها را به موجودیت مشابه به آن لینک می دهد. تشخیص دینامیک را با جستجوی استاتیک ترکیب می کند تا به دقت بالا رسیده و با سرعت بالایی به نتیجه برسد.
    TextAnalyst: natural language text analysis software

 

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    TextAnalyst یک سیستم متن کاوی است که تعدادی تابع آنالیز مهم را با تکیه بر استفاده از یک شبکه معنایی ایجاد شده خودکار از متن مورد بررسی ، پیاده می کند. مزیت اصلی آن در برابر سایر سیستم های بازیابی اطلاعات و تحلیل متن این است که می تواند شبکه معنایی یک متن را به طور کامل و بصورت خودکار بدون نیاز به از پیش توسعه دادن یک دیکشنری موضوعی خاص توسط انسان درآورد. کاربر مجبور نیست به این ابزار هیچ اطلاعات پس زمینه ای از موضوع بدهد سیستم این دانش را بصورت خودکار به دست می آورد پس با این حساب از یکی از تکنیک های یادگیری ماشین بی ناظر استفاده می کند.
    Intelligent Miner for Text
    مربوط به شرکت IBM software است . این ابزار مجموعه جامعی از ابزارهای تحلیل متن و جستجوی متن ارائه می کند:
    The Language Identi¯cation tool: این ابزار بصورت خودکار زبان سند را پیدا می کند می توانید آن را برای پوشش دادن زبان های دیگر آموزش دهید (از روش های یادگیری ماشین با ناظر (کلسیفایینگ) می توان استفاده کرد).

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    The Feature Extraction tool: این ابزار آیتم های لغت را در متن پیدا می کند خودش بصورت خودکار این کار را انجام می دهد و نیازی نیست شما محدوده ای که مربوط به لغت است را برای آن تعیین کنید.
    The Summarizer tool این ابزار کلمات و جملات را در سند آنالیز می کند و از سند یک خلاصه ایجاد می کند.
    The Topic Categorization tool  این ابزار بصورت خودکار اسناد را به مقوله ها، تاپیک ها یا زمینه هایی که از قبل تعیین کردید نسبت می دهد.
    The Clustering tools این ابزار مجموعه ای از اسناد را به گروه ها یا کلاسترهایی تقسیم می کند. اعضای هر کلاستر به هم شبیه هستند زیرا از ویژگی های مشترکی برخوردارند. این کلاسترهای از قبل تعیین شده نیستند.
    ICrossReader
    تنها اسناد بسیار مرتبط را در www پیدا می کند. متن های داخلی یک پایگاه داده غیر ساخت یافته را اسکرین کرده و اطلاعات را کلاستر معنایی می کند.
    Yahoo Planet

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    در این ابزار چندین مقوله برتر به عنوان برنامه های جداگانه گرفته می شود و برای هر یک از آنها یک کلاسیفایر خودکار ساخته می شود.
    Dataset
    این ابزار از دیتابیس های رابطه ای و Focused Informa-tion Retrieval استفاده می کند. تکنولوژی RDB یا دیتابیس رابطه ای با قابلیت های منحصر به فرد این ابزار برای مدیریت متن ترکیب شده و استفاده می شود. این ابزار، ابزارهای بازیابی و جستجوی جامعی فراهم می کند که می تواند آیتم ها را تقریبا بصورت آنی با کلمات، عبارات و … پیدا کند.
    Texis
    این ابزار تنها SQL RDBMS کاملا یکپارچه است که به صورت هوشمندانه پایگاه داده هایی را که شامل متون زبان طبیعی ، دیتا تایپ های استاندارد، تصاویر، ویدئو، صوت و سایر داده ها هستند کوئری و مدیریت می کند. می توانید در آن متن را با هر اندازه ای ذخیره کنید و این اطلاعات را با زبان طبیعی بپرسید.
    نرم افزار Text analytics می تواند با پس و پیش کردن و تبدیل کلمات و اصطلاحات و عبارات داده های غیر ساخت یافته به مقادیر عددی که بدین ترتیب پس از آن بتواند آنها را با داده های ساخت یافته موجود در دیتابیس لینک کند و با روش های داده کاوی تحلیل کند در این زمینه کمک کند.  سازمان ها می توانند با یک رویکرد تکرارگونه از Text analytics برای آگاهی یافتن از ارزش های محتوایی خاص مانند احساس، عاطفه و شدت و  ارتباط استفاده نمایند. از آنجایی که تکنولوژی Text analytics هنوز به عنوان یک تکنولوژی درحال ظهور محسوب می شوند، نتایج و عمق تحلیل ها می تواند از فروشنده ای به فروشنده دیگر تغییرکند.
    GATE
    GATE معماری عمومی Text Engineering است و یک جعبه ابزار کد باز برای پردازش زبان طبیعی و مهندسی زبان است. این ابزار یک سیستم استخراج اطلاعات به نام ANNIE دارد که در بردارنده مجموعه ای از ماژول هاست مانند tokenizer، یک gazetteer، یک تقسیم کننده جمله، یک part of speech tagger و … .
    Carrot2
    این ابزار یک چارچوب کلاسترینگ نتایج جستجو و متن است. این ابزار می تواند به طور اتوماتیک مجموعه های کوچکی از اسناد، نتایج جستجو یا خلاصه اسناد را بر اساس زمینه آنها کلاستر کند.
    SAS Text Analytics
    SAS یک نرم افزار تحلیل متن جامع است برای کشف و استخراج اطلاعات از متن. این ابزار از مدلسازی آماری پیشرفته ، پردازش زبان طبیعی، و تکنولوژی های زبان شناختی پیشرفته برای کشف الگوها از هر متن به هر زبان استفاده می کند. این ابزار در سیستم های اخطار فوری، هوش شهری، امنیت بیمار و عملکرد محتوای دیجیتال استفاده می شود.نمونه هایی دیگر از نرم افزارهای متن کاوی
    ۱-Copernic Summarizer

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    ۲- Wizdoc
    ۳-Insight Discoverer Categorizer
    ۴- Insight Discoverer Clusterer
    ۵- TextAnalyst
    ۶-



:: موضوعات مرتبط: newdatamining1 , ,
:: بازدید از این مطلب : 304
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
تاریخ انتشار : پنج شنبه 19 مرداد 1396 | نظرات ()
نوشته شده توسط : مطلب پروژه

  (Hidden Markov Models)

مدلهای مخفی مارکوف
معرفی

مدلهای مارکوف مخفی اولین بار در یک سری از مقالات آماری توسط Leonard E. Baum و نویسندگان دیگر در نیمه ۱۹۶۰مطرح گردید. اولین کاربرد آن در شناسایی گفتار بود که در نیمه ۱۹۷۰شروع گردید. درنیمه ۱۹۸۰برای آنالیز رشته های بیولوژیکی بخصوص DNA استفاده گردید. از آن زمان بعنوان زمینه ای از بیوانفورماتیک درنظر گرفته شد.

آندری آندرویچ مارکوف

آندری آندرویچ مارکوف٬ فارغ التحصیل دانشگاه سنت پترزبورگ در سال ۱۸۷۸ بود. وی در سال ۱۸۸۶ مدرک پروفسوری خود را دریافت کرد. کارهای زودهنگام مارکوف در تئوری اعداد٬ آنالیز٬ حدود انتگرال ها٬ همگرایی سری ها٬ دنباله کسرها و … بسیار اساسی بود
بعد از سال ۱۹۰۰ ٬ مارکوف تحت تأثیر استاد خود چبیشف٬ از روش دنباله های کسرها در تئوری احتمالات استفاده کرد.وی هم چنین در مورد رشته های متغیرهای وابسته متقابل٬ مطالعاتی انجام داد.با این امید ثابت کردن قوانین حدی در احتمالات در حالات کلی آنها.او قضیه حد مرکزی را با در نظر گرفتن فرض های کامل آن٬ اثبات کرد
مارکوف به دلیل مطالعاتش پیرامون زنجیرهای مارکوف که رشته هایی از متغیرهای تصادفی هستند٬ معروف است.در زنجیرهای مارکوف٬ متغیر بعدی توسط متغیر کنونی مشخص می شود ولی از راهی که تا کنون طی شده است مستقل است.
مدلهای مخفی مارکوف ابتدا در سال‌های اواخر ۱۹۶۰ و اوایل ۱۹۷۰ معرفی و مورد مطالعه قرار گرفت. روش‌های آماری منبع مارکوف یا مدلسازی مارکوف پنهان بطور روزافزونی در سال‌های اخیر متداول گردید. برای این امر دو دلیل بسیار قوی وجود دارد.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


اولاً مدل‌ها در ساختمان ریاضی خیلی غنی هستند و در اینصورت می‌توانند مبنائی نظری برای استفاده در محدودهء وسیعی از کاربردها را تشکیل دهند. ثانیا” مدل‌ها، در هنگامی که بطور صحیحی بکار برده می‌شوند، در عمل برای کابردهای مهم خیلی خوب کار می‌کنند..
چرا مخفی؟

اطلاق کلمه مخفی, به موضوع مورد بحث ما به این دلیل است که در باره مسائلی صحبت می‌کنیم که طریقه انجام آنها از دید ما پنهان است و البته ماهیت پارامتری آماری دارد. یعنی اینکه نه تنها نمی‌دانیم نتیجه چه خواهد بود, بلکه نوع اتفاق و احتمال آن اتفاق نیز باید از پارامترهایی که در دسترس است, نتیجه‌گیری شود. مانند پرتاب سکه در یک جعبه در بسته, یا جایی دور از دید ما. یعنی مدل حاصل یک مدل تصادفی با یک فرآیند تصادفی زیرین است که از دید ناظر, غیر قابل مشاهده (مخفی) است و تنها توسط مجموعه ای از فرآیندهای تصادفی که دنباله مشاهدات را تولید می کنند قابل استنتاج (به جای مشاهده) است.

مثال :
متوجه شدن وضع آب و هوا از طریق جلبک

انواع مدل

    مدلهای قطعی

Deterministic Patterns

    مدلهای غیر قطعی

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


Non-deterministic patterns
مدل مخفی مارکوف

مدل مخفی مارکوف یک سری متناهی از حالتهاست، که با یک توزیع احتمال پیوسته است

در یک حالت خاص، توسط توزیع احتمال پیوسته یک خروجی یا مشاهده می تواند بدست اید. حالات از خارج مخفی هستند از این رو مدل مخفی مارکوف نامیده شده است. مدل مخفی مارکوف، یک مدل آماری است که در آن  پارامترهای مخفی را از پارامترهای مشاهده شده مشخص می نماید.پارامترهای بیرون کشیده شده برای آنالیزهای بعدی می توانند استفاده شوند.به عنوان مثال برای دستور العمل های بازشناسی الگو..
در مدل مارکوف معمولی،وضعیت به طور مستقیم توسط مشاهده گر  قابل مشاهده است.بنابراین حالت انتقال احتمالات تنها پارامترها هستند.در مدل مخفی  مارکوف  ، وضعیت به طور مستقیم قابل مشاهده نیست، اما متغییرهای تحت تاثیر با وضعیت قابل مشاهده هستند.هر حالت یک توزیع احتمالات دارد برای خروجی ممکن که گرفته شود.بنابراین ترتیب گرفته های ایجاد شده توسط HMM اطلاعاتی در رابطه با حالت توالی میدهد. مدل های مخفی مارکوف برای دستورالعمل در شناسایی الگوهای موقت مانند گفتار،دست خط، شناسایی ایما و اشاره، بیو انفورماتیک و… معروف هستند.
پارامترهای اصلی مدل مارکوف

    مجموعه حالت‌هایی که ممکن است اتفاق بیفتد.
    مجموعه تصمیماتی که می‌توان در حالت‌های مختلف گرفت.
    مجموعه نتایجی که ممکن است متعاقب هر تصمیم‌گیری بدست آید.
    منافع و ارزش افزوده این تصمیم‌گیری در مقایسه با تصمیمات ممکن دیگر

با گرفتن مناسب‌ترین تصمیم, بهترین راه حل برای مسئله مطرح شده را تشخیص داده, و به بهترین حالت بعدی ممکن رسید. این راه حل, بصورت یک تابع ارزش نشان داده می شود که در هر حالت (موجود), بهترین حالت بعدی (مطلوب) توسط آن تعیین می‌شود.
معماری مدل مخفی مارکوف

هر شکل بیضی بیانگر یک مقدار متغیر تصادفی است که مقادیری را می پذیرد. x(t) مقدار متغیر تصادفی است که مقدار تغییرپذیرش در واحد زمان مخفی است. y(t) مقدار متغیر تصادفی است که مقدارش در زمان t قابل مشاهده است.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


از دیاگرام مشخص است که مقدار x(t) به مقدار  x(t − ۱)  وابسته است.که این را خاصیت مارکوف می نامند.

بطورمشابه، مقدار y(t) نیز به x(t) وابسته است.
فرآیند مارکوف

دیاگرام زیر، حالتهای مخفی و قابل مشاهده مثال آب و هوا را نشان می‌دهد. این دیاگرام اظهار می‌دارد که حالتهای مخفی در آب و هوای صحیح توسط یک فرآیند مارکوف ساده دستور اول، مدل شده‌اند و بنابراین  آنها همه به همدیگر متصل شده‌اند.
اتصال بین حالتهای مخفی و قابل مشاهده، احتمال تولید یک حالت خاص قابل مشاهده را که تحت تاثیر فرآیند مارکوف در حالت مخفی ویژه بوده، نمایش می‌‌دهد. بنابراین روشن است که همه احتمالات که توسط حالت قابل مشاهده وارد می‌شوند با عدد ۱ جمع می‌شوند، از این رو در مورد بالا، مجموع احتمال آفتابی و ابری و بارانی می‌شود. بنابراین علاوه بر ماتریس احتمالات که فرآیند مارکوف را توصیف می کنند، ما ماتریس دیگری داریم، مصطلح به ماتریس اغتشاش که شامل احتمالات حالتهای قابل مشاهده است که حالتهای مخفی ویژه در آن پنهان است. برای مثال آب و هوا ، ماتریس اغتشاش اینگونه باشد:
اجزای مدلهای مخفی مارکوف

    بردار احتمال حالت اولیه
    ماتریس تغییر حالت
    ماتریس اغتشاش

هر احتمالی در ماتریس تغییر حالت و اغتشاش به زمان وابسته نمی باشد. برای همین، ماتریس‌ها هنگامی که سیستم درگیر تغییر زمان می‌شود، وابسته به زمان تغییر نمی‌کنند. در  عمل این یکی از غیر واقعی ترین فرضیات مدل مارکوف درباره فرآیند های واقعی است.

مرتبه مدل مارکوف

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    مدل مارکوف مرتبه صفر

مدل مارکوف از مرتبه صفر مانند یک توزیع احتمال چند جمله ای می باشد. چگونگی تخمین پارامترهای مدل مارکوف مرتبه صفر و همچنین پیچیدگی مدل مشخص و قابل حل است و در کتاب‌های آمار و احتمالات وجود دارد.

    مدل مارکوف مرتبه اول

احتمال یک وضعیت به احتمال وضعیت قبلی آن (از نظر زمانی) بستگی دارد, به بیان دیگر احتمال وضعیت‌های ممکن, مستقل نیستند.

    مدل مارکوف مرتبه M

مرتبه یک مدل مارکوف برابر است با طول حافظه ای که مقادیر احتمال ممکن برای حالت بعدی به کمک آن محاسبه می شود. برای مثال، حالت بعدی در یک مدل مارکوف از درجه ۲ (مدل مارکوف مرتبه دوم) به دو حالت قبلی آن بستگی دارد.
فرضیات تئوری مدل مخفی مارکوف

    فرض مارکوف

به بیان دیگر فرض می شود که حالت بعدی تنها به حالت فعلی بستگی دارد. مدل حاصل از فرض مارکوف یک مدل HMM مرتبه صفر می باشد.در حالت کلی، حالت بعدی می تواند با k حالت قبلی وابسته باشد.

    فرض ایستایی  (stationarity)

در اینجا فرض می شود که احتمال انتقال در بین حالات از زمان واقعی رخداد انتقال مستقل است.

    فرض استقلال خروجی

در این حالت فرض می شود که خروجی (مشاهدات) فعلی به صورت آماری از خروجی قبلی مستقل است. می توان این فرض را با داشتن دنباله ای از خروجی ها مانند بیان نمود
برای اینکه مدل HMM در دنیای واقعی قابل استفاده باشد باید سه مساله مهم حل شود :

    مساله ارزیابی
    مساله کدگشایی
    مساله یادگیری

انواع مدلهای مخفی مارکوف و HMM پیوسته

    مدل ارگودیک
    مدل چپ به راست
    مدل موازی چپ به راست

الگوریتم ها

    الگوریتم forward یا پیشرو
    الگوریتم viterbi یا ویتربی
    الگوریتم forward-backward یا

پیشرو- پسرو
کاربردهای  HMM

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    طبقه بندی رشته ها با HMM
    تولید مسیرهای چندگانه
    شناسایی گفتار
    شناسایی کلمات جداگانه
    مدلسازی و یادگیری
    مدلسازی و ارزیابی عملکرد جراحی با استفاده از مدل‌های مخفی مارکف
    نرم افزار تشخیص گفتار از روی حرکات لب
    زنجیره‌های مارکوف در برنامه‌ریزی نیروی انسانی و پیش‌بینی آن در شرکت ملی ذوب‌آهن
    ارزیابی قابلیت اطمینان منبع قدرت شبکه الکترونیکی جهن کاربردهای ایمنی

محدودیت‌های فرآیند مارکوف

در مدل مخفی مارکوف، فر‎آیند هایی وجود دارند که رشته قابل مشاهده احتمالات به یک فرآیند مارکوف لایه زیرین مرتبط است. در چنین مواردی، تعداد حالتهای قابل مشاهده ممکن است از تعداد حالتهای مخفی متفاوت باشد.

یک مشکل واقعی دیگر، تشخیص گفتار است. صدایی که ما می‌شنویم، از طریق تارهای صوتی، اندازه گلو، وضعیت قرار گرفتن زبان و خیلی موارد دیگر تولید می‌گردد

هر کدام از این فاکتورها، با تاثیرات متقابل روی هم صدای یک کلمه را ایجاد می‌کنند و صداهایی که یک سیستم تشخیص گفتار، نشان می‌دهد، صدای تغییر یافته از تغییرات فیزیکی در صحبت کردن فرد می‌باشد. بعضی دستگاههای تشخیص گفتار، تولید گفتار داخلی را بعنوان رشته حالتهای پنهان در نظر می گیرند و صدای منتج از این سیستم‌ها، یک رشته از حالات قابل مشاهده می‌باشند  که بوسیله فرایند گفتار تولید شده‌اند و در بهترین حالت صحیح ( مخفی ) قرار دارند..

جعبه ابزار مدل مخفی مارکوف در مطلب

این جعبه ابزار یک استنباط ویادگیری را برای HMM با خروجی های گسسته (dhmm’s) ،خروجی های گوسین(ghmm’s) ،یا مخلوطی از خروجی های گوسین(mhmm’s) ساپورت میکند.همچنین ورودی های گسسته را ساپورت میکند.

 

تهیه و تنظیم: سمیرا نصر

کارشناسی ارشد مجازی رشته مدیریت فناوری اطلاعات درپزشکی

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


دانشکده مهندسی پزشکی دانشگاه صنعتی امیرکبیر

کاربرد فناوری اطلاعات در پزشکی



:: موضوعات مرتبط: newdatamining1 , ,
:: بازدید از این مطلب : 114
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
تاریخ انتشار : پنج شنبه 19 مرداد 1396 | نظرات ()
نوشته شده توسط : مطلب پروژه

در بسیاری از کاربردهای پردازش طبیعی زبان ۱برچسب زنی اجزای سخن نیاز است . برچسب زنی تعیین برچسب دستوری برای یک کلمه در یک متن است . ورودی این سیستم متن است و خروجی آن کلمه ها با تگ های مناسب است [۴].

بسیاری از برچسب زن ها با روش های مختلفی طراحی می شوند تا با دقت و عملکرد بالاتری برسند . این برچسب زن ها از روابط بین کلمه ای ۲و واژه نامه ۳استفاده می کنند [۱] . بر چسب زنی نقش بسیار مهمی در بسیاری از سیستم های NLP ایفا میکند مانند ساده سازی برنامه های پیچیده . اگر چه هر برچسب زن در بسیاری از زبان ها قابل استفاده است ولی در هر زبان خصوصیاتی هست که برچسب زن باید با توجه به آن ها طراحی شود . [۱] بر چسب ها شامل اطلاعات دستوری بسیار زیادی مانند : کمیت ، شخص ، جنسیت و … در مورد کلمه و همسایه های آن هستند .[۲] روش ها و مدل های زیادی برای برچسب زنی ارائه شده است که به دو قسمت کلی تقسیم می شوند :روش اول از بررسی و تفسیر آماری پیروی می کند و روش دوم از دانسته های انسانی و یادگیری ماشین۴ استفاده می کند .
در زبان فارسی دو مجموعه متنی شناخته شده وجود دارد : پایگاه داده زبان شناسی فارسی (Assi, 1997) و پیکره متنی زبان فارسی (Bijankhan, 2002; Mohseni, 2008) . مورد دوم در دوقسمت دسته بندی شده است : کلمات تفسیر شده و تفسیر نشده . قسمت تفسیر شده که حدود ۱۰% را در بر می گیرد به صورت دستی برچسب زده شده است . هدف ما بر چسب زنی برای قسمت تفسیر نشده (حدود ۹۰% مجموعه) است تا یک مجموعه ی ۱۰۰ میلیونی از کلمات بر چسب زده شده ایجاد شود.[۳]
کارهای مرتبط

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


اولین کاری که برروی برچسب زنی در زبان فارسی توسط (Assi & Abdolhoseini, 2000) بر پایه روشی که توسط (Schuetze, 1995) پیشنهاد شده ، انجام شده است . ایده ی این است که تمامی همسایه های کلمه در دو آرایه ی کلمات راست و کلمات چپ جمع آوری شود . کلمات با تکرار کم حذف می شوند ، چون دیده شده است که کلمات نادر آرایه های خالی دارند .نوع کلمات به شباهت توزیع شده بستگی دارد و هر دسته به صورت دستی برچسب گذاری می شود . این مجموعه ۴۵ برچسب دارد . دقت گذارش شده به این صورت است : دقت در اعداد ، دسته های مختلف افعال و اسم ها بین ۶۹ تا ۸۳ % می باشد و در حالت کلی ، دقت قسمت خودکار سیستم ۵۷٫۵% می باشد . در هر حال نویسنده اقرار می کند در حالی که برچسب های فارسی به کلمات مبهم بر می گردد ، سیستم پیشنهادی قادربه ابهام زدایی از کلماتی مانند کلمات با تکرار کم نیست . در ضمن دقت سیستم برای دسته هایی مانند صفت ها و قید ها بسیار کم است . [۳] تحقیق دیگری برروی برچسب زن های فارسی توسط (Megerdoomian, 2004) انجام شده است . از نتایج آزمایشات گزارشی در دست نیست . نویسنده تنها به چالش هایی که برای برنامه نویسی برچسب زن زبان فارسی ایجاد می شود اشاره کرده است .[۳] در (Mohseni, 2008) یک سیستم برچسب زنی برپایه ی مدل Markov مرتبه ی اول برروی مدل قدیمی پیکره اجرا شده است . در این مقاله برخی جنبه های ریخت شناسی فارسی و بعضی مشکلات در گسترش یک سیستم برچسب زنی ارائه شده است . [۳] در (Mojgan Seraji) یک برچسب زن آماری برای یک زبان فارسی ارائه شده است . نتایج آزمایش نشان می دهد که دقتی در حدود ۹۶٫۹% دارد که بهترین نتیجه گزارش شده برای زبان فارسی است . پایه ی این روش بر Hidden Markov Models می باشد که به کاربر اجازه می دهد تا برچسب زنی با ویژگی های متفاوت داشته باشد . این برچسب زن بر اساس حدس زدن برچسب مناسب با توجه به برچسب های قبلی و فعلی عمل می کند . نکته ی مثبت در مورد این الگوریتم برچسب زنی برای کلماتی است که تا بحال دیده نشده است . برروی کلمات یک آنالیز زبان شناسی انجام می شود تا لیست برچسب های قابل استفاده برای این کلمه را کم کند که نه تهنا باعث افزایش سرعت عملکرد سیستم می شود بلکه به شدت دقت را افزایش می دهد . به عبارت دیگر انالیزور زبان شناسی برچسب های ممکن را تولید می کند ، تا بر اساس الگوریتم های حدس زنی وزن دهی شود . [۶]
Markov Models

احتمال یک جمله از کلمات
w1 w2…wn{ w }_{ 1 }\ { w }_{ 2 } …{ w }_{ n }w1 w2...wn

با استفاده از برچسب زن به صورت
P(w1w2…wn,t1t2…tn)P({ w }_{ 1 }{ w }_{ 2 }…{ w }_{ n } ,t_{ 1 }t_{ 2 } …t_{ n })P(w1w2...wn,t1t2...tn)

است.که با توجه به قضیه ی Bayes به صورت زیر می شود :
P(wn∣w1w2…wn,t1t2…tn)P(tn∣w1w2…wn,t1t2…tn)P(w1w2…wn,t1t2…tn−۱)P({ w }_{ n }|{ w }_{ 1 } { w }_{ 2 } … { w }_{ n } , t_{ 1 }t_{ 2 } …t_{ n })P({ t }_{ n }|{ w }_{ 1 }{ w }_{ 2 } …{ w }_{ n } , t_{ 1 } t_{ 2 } …t_{ n })P({ w }_{ 1 }{ w }_{ 2 } …{ w }_{ n }, t_{ 1 } t_{ 2 } …t_{ n-1 })P(wn∣w1w2...wn,t1t2...tn)P(tn∣w1w2...wn,t1t2...tn)P(w1w2...wn,t1t2...tn−۱)

با استفاده از دو رابطه ی ساده مشخص می شود که احتمال کلمه ی
wn{w}_{n}wn

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


فقط به
tn{t}_{n}tn

آن و به Kکلمه ی مقدم بر آن بستگی دارد :
P(wn∣tn)P(tn∣tn−k…tn−۱)P(w1w2…wn,t1t2…tn−۱)P({ w }_{ n }|t_{ n })P({ t }_{ n }|t_{ n-k }…t_{ n-1 })P({ w }_{ 1 }{ w }_{ 2 }…{ w }_{ n },t_{ 1 } t_{ 2 } … t_{ n-1 })P(wn∣tn)P(tn∣tn−k...tn−۱)P(w1w2...wn,t1t2...tn−۱)

با ساده سازی و تابع بازگشتی قضیه ی Bayes این فرمول حاصل می شود :
P(w1w2…wn,t1t2…tn−۱)=∏i=1nP(wi∣ti)P(ti∣ti−k…ti−۱)P({ w }_{ 1 }{ w }_{ 2 }…{ w }_{ n },t_{ 1 }t_{ 2 }…t_{ n-1 })\quad =\quad \prod _{ i=1 }^{ n } P({ w }_{ i }|t_{ i })P({ t }_{ i }|t_{ i-k }…t_{ i-1 })P(w1w2...wn,t1t2...tn−۱)=∏i=1nP(wi∣ti)P(ti∣ti−k...ti−۱)

احتمال این مدل تنها به K کلمه ی قبلی بستگی دارد که به Markov Model مرتبه ی k شناخته می شود . در برچسب زنی بیشتر از مرتبه ی اول Markov Model و از مرتبه ی دوم Markov Model استفاده می شود .
انواع برچسب زن

الگوریتم های برچسب زنی مختلفی وجود دارد که هرکدام سعی می کند معایب الگوریتم قبلی را از بین ببرد . در (Megerdoomian, 2004) الگوریتم های برچسب زنی به دو دسته تقسیم می شوند :[۵]

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


برچسب زن های آماری: این الگوریتم های برچسب زنی بر اساس احتمال عمل می کنند . این الگوریتم ها معمولا از پیکره های برچسب زده شده استفاده می کنند . این ها احتمالات برچسب کلمه ها را با استفاده از اسناد برچسب زده شده یاد می گیرند . زمانی که این برچسب زن ها با یک کلمه ناشناخته روبرو می شوند از اطلاعات توزیع شده کلمه برای پیشنهاد یک برچسب برای آن استفاده می کنند . برچسب زن های اماری دقت بالایی دارند اما کارایی آن ها به سختی قابل ارتقا است . به علاوه از یک پیکره برچسب زده شده استفاده می کند که در بعضی زبان ها موجود نیست . [۵]

برچسب زن های قانونمند : این برچسب زن ها برچسب مناسب را با استفاده از قواعد دستوری و زبان شناسی انتخاب می کنند . در این برچسب زن ها از یادگیری استفاده نمی شود . از انجا که این برچسب زن ها از قواعد استفاده می کنند ، برای یرچسب زنی کلمات ناشناخته ناتوان هستند اما برای کلمات شناخته شده معمولا دقیق هستند .[۵] نوع دیگری از برچسب زن ها نیز در(Shamsfard) معرفی شده است که ترکیبی از این دو حالت است . [۱] با توجه یه اینکه برچسب زن های آماری دقت بالایی دارند در این مقاله از این نوع برچسب زن ها استفاده می شود ، البته همان طور که گفته شد معایبی نیز دارند .
پیش پردازش

مرحله اول برای تشکیل لغت نامه بیرون کشیدن کلمات از پیکره است . برای اجرای این عمل ، لازم است تا حدود و مرز کلمات شناسایی شود . در زبان فارسی مرز کلمات به خوبی مشخص نیست زیرا کلمات زیادی وجود دارد که از بیشتر از یک بخش تشکیل شده اند و این بخش ها با white space از هم جدا می شوند . به همین دلیل ابهاماتی برای برای تشخیص کلمات در زبان فارسی وجود دارد . برای ساده سازی عملیات جداسازی کلمات نقطه ها و white space به عنوان جدا کننده درنظر گرفته می شوند . برای جداسازی کلمات یک سری قوانین وضع می کنیم که باید رعایت شود : [۱]

    “می” که در اول بسیاری از فعل ها می آید باید به صورت جدا نوشته شود .
    “ها” که یک نشانه ی جمع است باید به صورت جدا نوشته شود .
    “بی” که یک پیشوند منفی ساز است باید به صورت جدا نوشته شود .

پیاده سازی

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


برای مجموعه ی داده ها ۵ از پیکره ی بیجن خان که حاوی ۲٫۶ میلیون کلمه و ۵۵۰ برچسب است ، استفاده شده است . از آنجا که این مجموعه دارای ۵۵۰ برچسب است و باعث ایجاد مشکلات فراوان و عدم دقت می شود ۳۸ برچسبی که بیشترین تکرار را دارند مورد استفاده قرار می گیرد . جدول زیر تعداد تکرار برچسب ها و احتمال آنها را نشان می دهد :
برچسب های پرتکرار و احتمال وقوع آنها
برچسب های پرتکرار و احتمال وقوع آنها
لیست برچسب ها
لیست برچسب ها

در پیکره ی بیجن خان فقط کلمات و برچسب آنها وجود دارد اما ار آنجا که احتمال وقوع هر برچسب برای ما مهم است با این کد احتمال وقوع برچسب ها استخراج شده است .
در این فاز بررسی ها و پیاده سازی های اولیه ، داده ها و فرم آنها برای استفاده و مراحل اجرای کار مشخص شد ، در فاز بعد پیاده سازی کامل به همراه بررسی میزان دقت الگوریتم انجام می شود.
پیاده سازی نهایی

مراحل پیاده سازی یه این ترتیب است که اول متن را نرمال سازی می کنیم همان طور که در این مورد در بخش پیش پردازش بحث شده بود . سپس کلمات را تشخیص داده و در اصطلاح Tokenize می کنیم و سپس با اجرای PosTagger بر چسب مربوط به هر کلمه مشخص می شود .
کد
البته در این فاز کار پیاده سازی توسط بنده انجام نشده و صرفا کد های Hazm بررسی شده است و کد های موجود در Git نیز همین کدهاست ، اما بیشتر وقت در این فاز به بررسی Machin Learning در پردازش طبیعی زبان داده شده است . چون مبحث بسیار سنگینی بود و پیش نیاز های متعددی برای یادگیری داشت متاسفانه فرصت کافی برای پیاده سازی وجود نداشت . دو منبع ۷ و ۸ را به منظور یادگیری ، یادگیری ماشین انتخاب کرده ام
کارهای آینده

با توجه به پیشرفت تکنولوژی ها به خصوص در نحوه ی ارتباط با کاربر یا همان رابط کاربری ، امروزه استفاده از پردازش طبیعی زبان بسیار گسترش یافته است . به خصوص در زمینه ی هوش مصنوعی و دستیار هوشمند شخصی(Inteligent Personal Assistant) کاربرد تبدیل گفتار به متن با استفاده از پردازش طبیعی زبان بسیار گسترش یافته است . همان طور که بررسی شد دو مدل برچسب زنی یعنی آماری و ساختار هر کدام معایب و مزایایی دارند که در مورد آنها صحبت شده است ، اما مواردی که از ترکیبی از این دو مدل بهره گرفته اند بسیار دقت و کارایی بیشتری داشته اند ، به شخصه احساس می کنم ترکیب این دو روش آینده ی برچسب زنی خواهد بود . همچنین استفاده از روش هایی که فارغ از نوع زبان به برچسب زنی می پردازند می تواند بسیار مفید باشد زیرا هر کدام از زبان ها معایب زیادی دارند که بسیار پیشبرد کار را مشکل می کنند ، در مورد معایب زبان فارسی بحث شده است . بهره گیری از نکاتی که عرض شد می تواند مقالات و برنامه های آینده را بهبود ببخشد .
مراجع

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    Mehrnoush Shamsfard , Hakimeh Fadaee A Hybrid Morphology-Based POS Tagger for Persian NLP Research Laboratory , Faculty of Electrical & Computer Engineering, Shahid Beheshti University, Tehran, Iran.
    Jurafsky D. and Martin J. H. (1999). Speech and language Processing. Prentice Hall, September 28.
    Mahdi Mohseni, Behrouz Minaei-bidgoli , A Persian Part-Of-Speech Tagger Based on Morphological Analysis , Iran University of Science and Technology.
    Ali Azimizadeh, Mohammad Mehdi Arab, Saeid Rahati Quchani, Persian part of speech tagger based on Hidden Markov Model , ,Islamic Azad University of Mashhad, Iran.
    Megerdoomian, K. (2004). Developing a Persian part-of-speech tagger. In Proceedings of First
    Workshop on Persian Language and Computers. Iran.
    Mojgan Seraji, A Statistical Part-of-Speech Tagger for Persian ,Department of Linguistics and Philology Uppsala University, Sweden
    Machin Learning in Action , Peter Harrington , Manning , 2012
    Machin Learning for Natural Lnaguage Processing , Mrtin Emms , Saturino Luz , 2007

    Natural Language Processing (NLP)

    inter-word relation

    lexicon

    Machine Learning

   



:: موضوعات مرتبط: newdatamining1 , ,
:: بازدید از این مطلب : 268
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
تاریخ انتشار : پنج شنبه 19 مرداد 1396 | نظرات ()
نوشته شده توسط : مطلب پروژه

    بررسی روش‌های گردش عملیات امکان‌سنجی استقرار سیستم‌ها و روش‌های بهینه و ..... در قالب تجزیه و تحلیل و طراحی سیستم‌های جامع اطلاعاتی (Customize)
    ارائه مستندات ساختار پایگاه داده جهت توسعه و استفاده در واحد فن‌آوری اطلاعات (IT) سازمان (با رعایت استانداردهای عملیاتی لازم )
    آموزش کاربران در طی استقرار پروژه و بدون محدودیت زمانی
 مشاوره و انجام پایان نامه مهندسی کامپیوتر در متکالج (مکتب ریاضیات) – بخش تحقیقاتی گروه فناوری های راین:

انجام پایان نامه مهندسی کامپیوتر

 

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


– هوش مصنوعی، یادگیری ماشین، یادگیری ژرف، یادگیری عمیق، شبکه های عصبی، داده کاوی

– پردازش زبان های طبیعی (Natural Language Processing)
– رمزنگاری، کدگذاری، داده کاوی، رمزنگاری کوانتومی، محاسبات کوانتومی​
-Artificial Intelligence, Data Mining, Machine Learning, Deep Learning, Neural Networks, Deep Learning, Image Processing, Cryptography, Coding, etc
– هوش مصنوعی، یادگیری ماشین، یادگیری ژرف، یادگیری عمیق، شبکه های عصبی، داده کاوی، مدل مخفی مارکف
– پروژه پردازش تصویر (image processing)

– مشاوره پایان نامه پردازش زبان های طبیعی (Natural Language Processing)

– پایان نامه پردازش تصویر + پیاده سازی با متلب

– پروژه داده کاوی با rapid miner

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


– پایان نامه داده کاوی با rapid miner

– پایان نامه داده کاوی با متلب Matlab

– پروژه داده کاوی با کلمنتاین

– انجام پروژه با نرم افزار کلمنتاین

– انجام پروژه با نرم افزار Clementine
– پروژه SPSS
– پروژه سیستم عامل، پروژه پایان ترم سیستم عامل
– پروژه داده کاوی
– پروژه داده کاوی با weka

– انجام پروژه های داده کاوی با نرم افزار weka
– پروژه داده کاوی با rapid miner
– پایان نامه کاوی با weka
– پایان نامه داده کاوی با rapid miner
– پروژه داده کاوی با متلب
– شبکه های حسگر بیسیم ، امنیت شبکه های حسگر بیسیم و رمزنگار
– پروژه پایگاه داده، پروژه پایان ترم پایگاه داده، پایگاه داده پیشرفته
– انجام پایان نامه کارشناسی ارش

انجام پایان نامه مهندسی کامپیوت

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

ر و مجری پروژه های علمی، تحقیقاتی و صنعتی در زمینه کامپیوتر، فناوری اطلاعات، تکنولوژی و ریاضی

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com



:: موضوعات مرتبط: newdatamining1 , ,
:: بازدید از این مطلب : 315
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
تاریخ انتشار : پنج شنبه 19 مرداد 1396 | نظرات ()
نوشته شده توسط : مطلب پروژه

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

  تا به امروز نرم افزار های تجاری و آموزشی فراوانی برای داده کاوی در حوزه های مختلف داده ها به دنیای علم و فناوری عرضه شده­اند. هریک از آنها با توجه به نوع اصلی داده هایی که مورد کاوش قرار می­دهند، روی الگوریتمهای خاصی متمرکز شده­اند. مقایسه دقیق و علمی این ابزارها باید از جنبه های متفاوت و متعددی مانند تنوع انواع و فرمت داده های ورودی، حجم ممکن برای پردازش داده ها، الگوریتمها پیاده سازی شده، روشهای ارزیابی نتایج، روشهای مصور سازی [1] ، روشهای پیش پردازش [2] داده ها، واسطهای کاربر پسند [3] ، پلت فرم [4] های سازگار برای اجرا،‌ قیمت و در دسترس بودن نرم افزار صورت گیرد. از آن میان، ‌نرم افزار Weka با داشتن امکانات بسیار گسترده،‌ امکان مقایسه خروجی روشهای مختلف با هم، راهنمای خوب، واسط گرافیگی کارآ، سازگاری با سایر برنامه­های ویندوزی، و از همه مهمتر وجود کتابی بسیار جامع و مرتبط با آن [ Data Mining, witten et Al. 2005 ] ، معرفی می­شود.

  میزکار [5] Weka ، مجموعه­ای از الگوریتم­‏های روز یادگیری ماشینی و ابزارهای پیش پردازش داده­‏ها می‏­باشد. این نرم­افزار به گونه­ای طراحی شده است که می‏­توان به سرعت، روش­‏های موجود را به صورت انعطاف­پذیری روی مجموعه­‏های جدید داده، آزمایش نمود. این نرم­افزار، پشتیبانی‏‏های ارزشمندی را برای کل فرآیند داده کاوی ­‏های تجربی فراهم می‏­کند. این پشتیبانی‏ها، آماده سازی داده­‏های ورودی، ارزیابی آماری چارچوب­‏های یادگیری و نمایش گرافیکی داده­‏های ورودی و نتایج یادگیری را در بر می­گیرند. همچنین، هماهنگ با دامنه وسیع الگوریتم­‏های یادگیری، این نرم­افزار شامل ابزارهای متنوع پیش پردازش داده­هاست. این جعبه ابزار [6] متنوع و جامع، از طریق یک واسط متداول در دسترس است، به نحوی که کاربر می‏­تواند روش­‏های متفاوت را در آن با یکدیگر مقایسه کند و روش­‏هایی را که برای مسایل مدنظر مناسب­تر هستند، تشخیص دهد.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


  نرم­افزار Weka در دانشگاه Waikato واقع در نیوزلند توسعه یافته است و اسم آن از عبارت "Waikato Environment for knowledge Analysis" استخراج گشته است. همچنین Weka ، نام پرنده­ای با طبیعت جستجوگر است که پرواز نمی‏­کند و در نیوزلند، یافت می‏­شود. این سیستم به زبان جاوا نوشته شده و بر اساس لیسانس عمومی و فراگیر [7] GNU انتشار یافته است. Weka تقریباً روی هر پلت فرمی اجرا می‏­شود و نیز تحت سیستم عامل­‏های لینوکس، ویندوز، و مکینتاش، و حتی روی یک منشی دیجیتالی شخصی [8] ، آزمایش شده است.

  این نرم­افزار، یک واسط همگون برای بسیاری از الگوریتم­‏های یادگیری متفاوت، فراهم کرده است که از طریق آن روش­‏های پیش پردازش، پس از پردازش [9] و ارزیابی نتایج طرح های یادگیری روی همه مجموعه های داده­‏ موجود، قابل اعمال است.

  نرم افزار Weka ، پیاده سازی الگوریتم­‏های مختلف یادگیری را فراهم می‏­کند و به آسانی می‏­توان آنها را به مجموعه های داده خود اعمال کرد.

  همچنین، این نرم­افزار شامل مجموعه متنوعی از ابزارهای تبدیل مجموعه­‏های داده­‏ها، همانند الگوریتم­‏های گسسته سازی [10] می‏­باشد. در این محیط می‏­توان یک مجموعه داده را پیش پردازش کرد، آن را به یک طرح یادگیری وارد نمود، و دسته­بندی حاصله و کارآیی­اش را مورد تحلیل قرار داد. (همه این کارها، بدون نیاز به نوشتن هیچ قطعه برنامه­ای میسر است.)

  این محیط، شامل روش­‏هایی برای همه مسایل استاندارد داده کاوی مانند رگرسیون، رده‏بندی، خوشه­بندی، کاوش قواعد انجمنی و انتخاب ویژگی می‏­باشد. با در نظر گرفتن اینکه، داده­‏ها بخش مکمل کار هستند، بسیاری از ابزارهای پیش پردازش داده­‏ها و مصورسازی آنها فراهم گشته است. همه الگوریتم­‏ها، ورودی­‏های خود را به صورت یک جدول رابطه­ای [11] به فرمت ARFF دریافت می‏­کنند. این فرمت داده­‏ها، می‏­تواند از یک فایل خوانده شده یا به وسیله یک درخواست از پایگاه داده­ای تولید گردد.

  یکی از راه­‏های به کارگیری Weka ، اعمال یک روش یادگیری به یک مجموعه داده و تحلیل خروجی آن برای شناخت چیزهای بیشتری راجع به آن اطلاعات می‏­باشد. راه دیگر استفاده از مدل یادگیری شده برای تولید پیش‏بینی­‏هایی در مورد نمونه­‏های جدید است. سومین راه، اعمال یادگیرنده­‏های مختلف و مقایسه کارآیی آنها به منظور انتخاب یکی از آنها برای تخمین می‏­باشد. روش­‏های یادگیری Classifier نامیده می‏­شوند و در واسط تعاملی [12] Weka ، می‏­توان هر یک از آنها را از منو [13] انتخاب نمود. بسیاری از classifier ‏ها پارامترهای قابل تنظیم دارند که می‏­توان از طریق صفحه ویژگی‏‏ها یا object editor به آنها دسترسی داشت. یک واحد ارزیابی مشترک، برای اندازه‏گیری کارآیی همه classifier به کار می‏­رود.

  پیاده سازی­‏های چارچوب­‏های یادگیری واقعی، منابع بسیار ارزشمندی هستند که Weka فراهم می‏­کند. ابزارهایی که برای پیش پردازش داده­‏ها استفاده می‏­شوند. filter نامیده می‏­شوند. همانند classifier ‏ها، می‏­توان filter ‏ها را از منوی مربوطه انتخاب کرده و آنها را با نیازمندی­‏های خود، سازگار نمود. در ادامه، به روش به کارگیری فیلترها اشاره می‏­شود.

  علاوه بر موارد فوق، Weka شامل پیاده سازی الگوریتم­‏هایی برای یادگیری قواعد انجمنی، خوشه­بندی داده­‏ها در جایی که هیچ دسته­ای تعریف نشده است، و انتخاب ویژگی‏های مرتبط [14] در داده­‏ها می‏­شود.

  2- روش استفاده از Weka

  شکل 1،‌ راههای انتخاب واسط­های مختلف Weka را نشان می­دهد.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


  آسان­ترین راه استفاده از Weka ، از طریق واسطی گرافیکی است که Explorer خوانده می‏شود. این واسط گرافیکی، به وسیله انتخاب منوها و پر کردن فرم­‏های مربوطه، دسترسی به همه امکانات را فراهم کرده است. برای مثال، می‏­توان به سرعت یک مجموعه داده را از یک فایل ARFF خواند و درخت تصمیم‏گیری آن را تولید نمود. امادرخت­‏های تصمیم‏گیری یادگیرنده صرفاً ابتدای کار هستند. الگوریتم­‏های بسیار دیگری برای جستجو وجود دارند. واسط Explorer کمک می‏­کند تا الگوریتم­‏های دیگر نیز آزمایش شوند.

 

  AWT IMAGE

  شکل 1. Weka در وضعیت انتخاب واسط

  این واسط با در اختیار گذاشتن گزینه­‏ها به صورت منو، با وادار کردن کاربر به اجرای کارها با ترتیب صحیح، به وسیله خاکستری نمودن گزینه­‏ها تا زمان صحیح به کارگیری آنها، و با در اختیار گذاشتن گزینه­‏هایی به صورت فرم­‏های پرشدنی، کاربر را هدایت می‏­کند. راهنمای ابزار مفیدی، حین عبور ماوس از روی گزینه­‏ها، ظاهر شده و اعمال لازم مربوطه را شرح می‏­دهد. پیش­فرض­‏های معقول قرار داده شده، کاربر را قادر می‏­سازند تا با کمترین تلاشی، به نتیجه برسد. اما کاربر باید برای درک معنی نتایج حاصله، راجع به کارهایی که انجام می‏­دهد، بیندیشد.

  Weka دو واسط گرافیکی دیگر نیز دارد. واسط knowledge flow به کاربر امکان می‏­دهد تا چنیش­‏هایی برای پردازش داده­‏های در جریان، طراحی کند. یک عیب پایه­ای Explorer . نگهداری هر چیزی در حافظه اصلی آن است. (زمانی که یک مجموعه داده را باز می‏­کنیم، Explorer ، کل آن را، در حافظ باز می‏­کند) نشان می‏­دهد که Explorer ، صرفاً برای مسایل با اندازه­‏های کوچک تا متوسط، قابل اعمال است. با وجود بر این Weka شامل تعدادی الگوریتم­‏های افزایشی است که می‏­تواند برای پردازش مجموعه های داده بسیار بزرگ مورد استفاده قرار گیرد. واسط knowledge flow امکان می‏­دهد تا جعبه [15] ­‏های نمایانگر الگوریتم­‏های یادگیری و منابع داده­‏ها را به درون صفحه بکشیم و با اتصال آنها به یکدیگر، ترکیب و چینش دلخواه خود را بسازیم. این واسط اجازه می‏­دهد تا جریان داده­ای از مؤلفه­‏های به هم متصل که بیانگر منابع داده، ابزارهای پیش پردازش، روش­‏های ارزیابی و واحدهای مصوّر سازی هستند تعریف شود. اگر فیلترها و الگوریتم­های یادگیری، قابلیت یادگیری افزایشی را داشته باشند، داده­‏ها به صورت افزایشی بار شده و پردازش خواهند شد.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


  سومین واسط Weka ، که Experimenter خوانده می‏­شود، کمک می‏­کند تا به این سؤال عملی و پایه­ای کاربر حین استفاده از تکنیک­‏های رده‏بندی و رگرسیون، پاسخ دهد: "چه روش­‏ها و پارامترهایی برای مسأله داده شده، بهتر عمل می‏­کنند؟"

  عموماً راهی برای پاسخگویی مقدماتی به این سؤال وجود ندارد و یکی از دلایل توسعه Weka ، فراهم نمودن محیطی است که کاربران Weka را قادر به مقایسه تکنیک­‏های گوناگون یادگیری بنماید. این کار، می‏­تواند به صورت تعاملی در Explorer انجام شود. با این وجود، Experimenter با ساده کردن اجرای رده‏بندی کننده­‏ها و فیلترها با پارامترهای گوناگون روی تعدادی از مجموعه­‏های داده، جمع­آوری آمار کارآیی و انجام آزمایش­‏های معنا، پردازش را خودکار می‏­کند. کاربرهای پیشرفته، می‏­توانند از Experimenter برای توزیع بار محاسباتی بین چندین ماشین، استفاده کنند. در این روش، می‏­توان آزمایش­‏های آماری بزرگی را راه­اندازی نموده و آنها را برای اجرا، رها نمود.

  ورای این واسط­‏های تعاملی، عملکرد پایه­ای Weka قرار دارد. توابع پایه­ای Weka ، از طریق خط فرمان [16] ­‏های متنی قابل دسترسی هستند. زمانی که Weka ، فعال می‏­شود، امکان انتخاب بین چهار واسط کاربری وجود دارد: Explorer ، knowledge ، Experimenter و واسط خط فرمان.

  اکثر کاربران، حداقل در ابتدای کار Explorer را به عنوان واسط کاربری انتخاب می‏­کنند.

  3. قابلیتهای Weka

  مستندسازی در لحظه، که به صورت خودکار از کد اصلی تولید می‏­شود و دقیقاً ساختار آن را بیان می‏­کند، قابلیت مهمی است که حین استفاده از Weka وجوددارد.

  نحوه استفاده از این مستندات و چگونگی تعیین پایه­‏های ساختمانی اصلی Weka ، مشخص کردن بخش­‏هایی که از روش­‏های یادگیری با سرپرست استفاده می‏­کند، ابزاری برای پیش پردازش داده­‏ها بکار می‏­رود و اینکه چه روش­‏هایی برای سایر برنامه­‏های یادگیری وجود دارد، در ادامه تشریح خواهد شد. تنها به لیست کاملی از الگوریتم­‏های موجود اکتفا می‏­شود زیرا Weka به طور پیوسته تکمیل می‏­شود و به طور خودکار از کد اصلی تولید می‏­شود. مستندات در لحظه همیشه به هنگام شده می‏­باشد. اگر ادامه دادن به مراحل بعدی و دسترسی به کتابخانه از برنامه جاوا شخصی یا نوشتن و آزمایش کردن برنامه­‏های یادگیری شخصی مورد نیاز باشد، این ویژگی بسیار حیاتی خواهد بود.

  در اغلب برنامه­‏های کاربردی داده کاوی، جزء یادگیری ماشینی، بخش کوچکی از سیستم نرم­افزاری نسبتاً بزرگی را شامل می‏­شود. در صورتی که نوشتن برنامه کاربردی داده کاوی مد نظر باشد، می‏­توان با برنامه­نویسی اندکی به برنامه­‏های Weka از داخل کد شخصی دسترسی داشت. اگر پیدا کردن مهارت در الگوریتم­‏های یادگیری ماشینی مدنظر باشد، اجرای الگوریتم­‏های شخصی بدون درگیر جزییات دست و پا گیر شدن مثل خواندن اطلاعات از یک فایل، اجرای الگوریتم­‏های فیلترینگ یا تهیه کد برای ارزیابی نتایج یکی از خواسته­‏ها می‏­باشد. Weka دارای همه این مزیت­‏ها است. برای استفاده کامل از این ویژگی، باید با ساختارهای پایه­ای داده­‏ها آشنا شد.

  4. دریافت Weka

  نرم افزار Weka ، در آدرس http://www.cs.waikato.ac.nz/me/weka ، در دسترس است. از این طریق می‏­توان نصب کننده [17] متناسب با یک پلت فرم معین، یا یک فایل Java jar را که در صورت نصب بودن جاوا به راحتی قابل اجرا است، دانلود [18] نمود.

  5. مروری بر Explorer

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


  واسط گرافیکی اصلی برای کاربران،‌ Explorer است که امکان دسترسی به همه امکانات Weka را از طریق انتخاب منوها و پر کردن فرمها فراهم می­آورد. شکل 2،‌ نمای Explorer ‌ را نشان می­دهد. در این واسط، شش پانل [19] مختلف وجود دارد که از طریق نوار [20] بالای صفحه قابل انتخاب هستند و با وظایف [21] داده کاوی پشتیبانی شده توسط Weka ‌ متناظر می­باشند.

 AWT IMAGE

  شکل 2. واسط گرافیکی Explorer

  دو گزینه از شش گزینه بالای پنجره Explorer در شکل های 3 و 4 به طور خلاصه تشریح شده است.

  به طور خلاصه، کارکرد تمام گزینه­‏ها به شرح ذیل است.

  Preprocess : انتخاب مجموعه داده و اصلاح [22] آن از راه­‏های گوناگون

  Classify : آموزش [23] برنامه­‏های یادگیری که رده‏بندی یا رگرسیون انجام می‏­دهند و ارزیابی آنها.

  Cluster : یادگیری خوشه­‏ها برای مجموعه های داده

  Associate : یادگیری قواعد انجمنی برای داده­‏ها و ارزیابی آنها

  Select attributes : انتخاب مرتبط­ترین جنبه [24] ها در مجموعه های داده

  Visualize : مشاهده نمودارهای مختلف دوبعدی داده­‏ها و تعامل با آنها

  AWT IMAGE

  شکل 3. خواندن فایل داده های آب و هوا

  Weka Exphorer امکان رده بندی دارد، چنانچه به کاربران اجازه می‏­دهد به صورت تعاملی اقدام به ساخت درخت تصمیم‏گیری کنند. Weka نمودار پراکندگی داده­‏ها را نسبت به دو ویژگی انتخاب شده، فراهم می‏­آورد. وقتی زوج ویژگی­ای که رده­‏ها را به خوبی جدا می‏­کند، پیدا شد، امکان ایجاد دو شاخه با کشیدن چند ضلعی اطراف نقاط داده­‏ها بر نمودار پراکندگی وجود دارد.

 

  AWT IMAGE

  شکل 4. نوار Classify

  هر نوار، دسترسی به دامنه کاملی از امکانات را فراهم می­کند. در پایین هر پانل، جعبه status و دکمه log قرار دارد. جعبه status پیغام­‏هایی است که نشان می‏­دهد چه عملیاتی در حال انجام داده شدن است. مثلاً اگر Explores مشغول خواندن یک فایل باشد، جعبه status آن را گزارش می‏­دهد. کلیک راست در هر جا داخل این جعبه یک منو کوچک با دو گزینه می‏­آورد، نمایش میزان حافظه در دسترس Weka و اجرای Java garbage collector ..

  لازم است توجه شود که garbage collector به طور ثابت به عنوان یک عمل پیش زمینه [25] در هر حال اجرا می‏­شود کلیک دکمه log ، گزارش عملکرد متنی کارهایی که Weka تاکنون در این بخش انجام داده است با برچسب زمانی ارایه می‏­کند.

  زمانیکه Weka در حال عملیات است، پرنده کوچکی که در پایین سمت راست پنجره است، بالا و پایین می‏­پرد. عدد پشت × نشان می‏­دهد که به طور همزمان چند عملیات در حال انجام است. اگر پرنده بایستد در حالیکه حرکت نمی‏­کند، او مریض است! اشتباه رخ داده است و باید Explorer از نو اجرا شود.

  1. خواندن و فیلتر کردن فایل­‏ها

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


  در بالای پانل Preprocess در شکل 3، دکمه­‏هایی برای باز کردن فایل، URL ‏ها و پایگاه های داده­‏ وجود دارد. در ابتدا تنها فایل­‏های با پسوند arff . در browser فایل نمایش داده می‏­شود. برای دیدن سایر فایل­‏ها یاید گزینه [26] Format در جعبه انتخاب فایل تغییر داده شود.

  2. تبدیل فایل­‏ها به فرمت ARFF

  نرم افزار Weka دارای سه مبدل فرمت فایل [27] می‏­باشد، برای فایل­‏های صفحه گسترده [28] با پسوند CSV ، با فرمت فایل C4.5 با پسوند names . و data و برای نمونه­‏های سری با پسوند bsi .

  اگر Weka قادر به خواندن داده­‏ها نباشد، سعی می‏­کند آن را به صورت ARFF تفسیر کند. اگر نتواند جعبه نشان داده شده در شکل 5 (الف) ظاهر می‏­شود.

  AWT IMAGE

  (الف)

AWT IMAGE

(ب)

AWT IMAGE

(ج)

     شکل 5. ویرایشگر عمومی اشیاء (الف) ویرایشگر (ب) اطلاعات بیشتر (فشردن دگمه More ) (ج) انتخاب یک مبدل

  این، یک ویرایشگر عمومی [29] اشیاء است که در Weka برای انتخاب و تنظیم اشیا بکار می‏­رود. به عنوان مثال وقتی پارامتری برای Classifier تنظیم می‏­شود، جعبه­ای با نوع مشابه بکار برده می‏­شود. CSV Loader برای فایل­‏های با پسوند CSV . به طور پیش فرض انتخاب می‏­شود. دکمه More اطلاعات بیشتری در مورد آن می‏­دهد که در شکل 5 (ب) نشان داده شده است.

  همیشه مطالعه مستندات [30] ارزشمنداست! در این حالت نشان می‏­دهد که ردیف نخست صفحه گسترده، نام ویژگی را تعیین می‏­کند. برای استفاده از این مبدل باید بر Ok کلیک شود. برای مورد مختلف لازم است بر choose کلیک شود تا از لیست شکل 5 (ج) انتخاب انجام شود.

  گزینه اول، Arffloader است و فقط به دلیل ناموفق بودن به این نقطه می‏­رسیم. CSVLoader پیش فرض است و در صورت نیاز به فرض دیگر، choose کلیک می‏­شود. سومین گزینه، مربوط به فرمت C4.5 است که دو فایل برای مجموعه داده وجود دارد یکی اسم­‏ها و دیگـری داده­‏های واقعـی می‏­باشد. چهارمین برای نمونه­‏های سریالی [31] ، برای بازخوانی [32] مجموعه داده­ای است که به صورت شیئ سریالی شده جاوا ذخیره شده است. هر شیء در جاوا می‏­تواند در این شکل ذخیره و بازخوانی شود. به عنوان یک فرمت بومی جاوا [33] ، سریع­تر از فایل ARFF خوانده می‏­شود چرا که فایل ARFF باید تجزیه [34] و کنترل شود. وقتی یک مجموعه داده بزرگ مکررا بازخوانی می‏­شود، ذخیره آن در این شکل سودمند است.

  ویژگی‏های دیگر ویرایشگر عمومی اشیا در شکل 5 (الف)، save و open است که به ترتیب برای ذخیره اشیای تنظیم شده و بازکردن شیئی که پیش از این ذخیره شده است، به کار می­رود. اینها برای این نوع خاص شیئ مفید نیستند. لکن پانل­‏های دیگر ویرایشگر عمومی اشیاء، خواص قابل ویرایش زیادی دارند. به دلیل مشکلاتی که ممکن است حین تنظیم مجدد آنها رخ دهد، می‏­توان ترکیب اشیاء ایجاد شده را برای استفاده­‏های بعدی، ذخیره کرد.

  تنها منبع [35] مجموعه­‏های داده برای Weka ، فایل­‏های موجود روی کامپیوتر نیستند. می‏­توان یک URL را باز کرد تا Weka از پروتکل HTTP برای دانلود کردن یک فایل Arff از شبکه استفاده کند. همچنین می‏توان یک پایگاه داده­‏ها را باز نمود ( open DB ـ هر پایگاه داده­ای که درایور اتصال به مجموعه های داده به زبان جاوا JDBC را دارد.) و به وسیله دستور select زبان SQL ، نمونه­‏‏ها را بازیابی نمود. داده­‏ها می‏­توانند به کمک دگمه save به همه فرمت­‏های ذکر شده، ذخیره شوند. جدای از بحث بارگذاری و ذخیره مجموعه­‏های داده، پانل preprocess به کاربر اجازه فیلتر کردن داده­‏ها را می‏­دهد. فیلترها، اجزای مهم Weka هستند.

  3. بکارگیری فیلترها

  با کلیک دگمه choose (گوشه بالا و سمت چپ) در شکل 3 می‏­توان به لیستی از فیلترها دست یافت. می‏­توان از فیلترها برای حذف ویژگی‏های مورد نظری از یک مجموعه داده و انتخاب دستی ویژگی‏‏ها استفاده نمود. مشابه این نتیجه را می‏­توان به کمک انتخاب ویژگی‏های مورد نظر با تیک زدن آنها و فشار دادن کلیه Remove به دست آورد.

  4. الگوریتم­‏های یادگیری

  زمانی که یک الگوریتم یادگیری با استفاده از دگمه choose در پانل classify انتخاب می‏­شود، نسخه خط فرمانی رده بند در سطری نزدیک به دگمه ظاهر می‏­گردد. این خط فرمان شامل پارامترهای الگوریتم است که با خط تیره مشخص می‏­شوند. برای تغییر آنها می‏­توان روی آن خط کلیک نمود تا ویرایشگر مناسب شیء، باز شود. جدول شکل 6، لیست اسامی رده بندهای Weka را نمایش می‏­دهد. این الگوریتم­‏ها به رده بندهای Bayesian ، trees ، functions rules ، lazy و دسته نهایی شامل روش­‏های متفرقه تقسیم شده­اند.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

  4-1. Trees

  Decision stump که برای استفاده توسط روش­‏های boosting طراحی شده است، برای مجموعه­‏های داده عددی یا رده­ای، درخت تصمیم‏گیری یک سطحی می‏­سازد. این الگوریتم، با مقادیر از دست رفته، به صورت مقادیر مجزا برخورد کرده و شاخه سومی از درخت توسعه می‏­دهد.

  4-2. Rules

  Decision Table یک رده بند بر اساس اکثریت جدول تصمیم‏گیری می‏­سازد. این الگوریتم، با استفاده از جستجوی اولین بهترین، زیر دسته­‏های ویژگی‏‏ها را ارزیابی می‏­کند و می‏­تواند از اعتبارسنجی تقاطعی برای ارزیابی بهره ببرد (1995، Kohavi ).

  یک امکان این است که به جای استفاده از اکثریت جدول تصمیم‏گیری که بر اساس دسته ویژگی‏های مشابه عمل می‏­کند، از روش نزدیکترین همسایه برای تعیین رده هر یک از نمونه­‏ها که توسط مدخل [36] جدول تصمیم‏گیری پوشش داده نشده­اند، استفاده شود.

  Conjunctive Rule قاعده­ای را یاد می‏­گیرد که مقادیر رده­‏های عددی را رده­ای را پیش‏بینی می‏­کند. نمونه­‏های آزمایشی به مقادیر پیش فرض رده نمونه­‏های آموزشی، منسوب می‏­شوند. سپس تقویت اطلاعات (برای رده­‏های رسمی)، یا کاهش واریانس (برای رده­های عددی) مربوط به هر والد محاسبه شده و به روش هرس کردن با خطای کاهش یافته [37] ، قواعد هرس می‏­شوند.

  ZeroR برای رده­‏های اسمی، اکثریت داده­‏های مورد آزمایش و برای رده­‏های عددی، میانگین آنها را پیش‏بینی می‏­کند. این الگوریتم بسیار ساده است.

  M5Rules ، به کمک M5 از روی درخت­‏های مدل، قواعد رگرسیون استخراج می‏­کند.

  AWT IMAGE

  شکل 6.الف. الگوریتمهای رده بندی در Weka

 AWT IMAGE

    شکل 6.ب. الگوریتمهای رده بندی در Weka

 در این بخش به شرح مختصری برخی از این الگوریتمها و پارامترهایشان که قابلیت کار با ویژگی های عددی را دارند، پرداخته می‏­شود.

  4-3. Functions

  Simple Linear Regresion مدل رگرسیون خطی یک ویژگی مشخص را یاد می‏­گیرد. آنگاه مدل با کمترین خطای مربعات را انتخاب می‏­کند. در این الگوریتم، مقادیر از دست رفته و مقادیر غیرعددی مجاز نیستند [38] .

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


  Linear Regression رگرسیون خطی استاندارد کمترین خطای مربعات را انجام می‏­دهد می‏تواند به طور اختیاری به انتخاب ویژگی بپردازد، این کار می‏­تواند به صورت حریصانه [39] با حذف عقب رونده [40] انجام شود، یا با ساختن یک مدل کامل از همه ویژگی‏‏ها و حذف یکی یکی جمله­‏ها با ترتیب نزولی ضرایب استاندارد شده آنها، تا رسیدن به شرط توقف مطلوب انجام گیرد.

  Least Med sq یک روش رگرسیون خطی مقاوم است که میانه [41] (به جای میانگین [42] ) مربعات انحراف از خط رگرسیون را کمینه می‏­کند. این روش به طور مکرر رگرسیون خطی استاندارد را به زیرمجموعه­‏هایی از نمونه­‏ها اعمال می‏­کند و نتایجی را بیرون می‏­دهد که کمترین خطای مربع میانه را دارند.

  SMO teg الگوریتم بهینه سازی حداقل ترتیبی را روی مسایل رگرسیون اعمال می‏­کند. ( Scholkopf, 1998 ، Smola )

  Pace Regression ، با استفاده از تکنیک رگرسیون pace ، مدل­‏های رگرسیون خطی تولید می‏­کند (2002 ، Wang و Witten ). رگرسیون pace ، زمانی که تعداد ویژگی‏‏ها خیلی زیاد است، به طور ویژه­ای در تعیین ویژگی‏‏هایی که باید صرف‏نظر شوند، خوب عمل می‏­کند. در واقع در صورت وجود نظم و ترتیب خاصی، ثابت می‏­شود که با بی­نهایت شدن تعداد ویژگی‏‏ها، الگوریتم بهینه عمل می‏­کند.

  RBF Network ، یک شبکه با تابع پایه­ای گوسی شعاعی را پیاده سازی می‏­کند. مراکز و عرض­‏های واحدهای مخفی به وسیله روش میانگین K [43] تعیین می‏­شود. سپس خروجی­‏های فراهم شده از لایه­‏های مخفی [44] ، با استفاده از رگرسیون منطقی در مورد رده­‏های اسمی و رگرسیون خطی در مورد رده­‏های عددی، با یکدیگر ترکیب می‏­شوند. فعال سازی­‏های توابع پایه پیش از ورود به مدل­‏های خطی، با جمع شدن با عدد یک، نرمالیزه می‏­شوند. در این الگوریتم می‏­توان، K تعداد خوشه­‏ها، بیشترین تعداد تکرارهای رگرسیون­‏های منطقی برای مسأله­‏های رده­‏های رسمی، حداقل انحراف معیار خوشه­‏ها، و مقدار بیشینه رگرسیون را تعیین نمود. اگر رده­‏ها رسمی باشد، میانگین K به طور جداگانه به هر رده اعمال می‏­شود تا K خوشه مورد نظر برای هر رده استخراج گردد.

  4-4. رده بندهای Lazy

  یادیگرنده­‏های lazy نمونه­‏های آموزشی را ذخیره می‏­کنند و تا زمان رده بندی هیچ کار واقعی انجام نمی‏­دهند.

  IB1 یک یادگیرنده ابتدایی بر پایه نمونه است که نزدیک­ترین نمونه­‏های آموزشی به نمونه­‏های آزمایشی داده شده را از نظر فاصله اقلیدسی پیدا کرده و نزدیکترین رده­ای مشابه رده همان نمونه­‏های آموزشی را تخمین می‏­زند.

  IBK یک رده بند با K همسایه نزدیک است که معیار فاصله ذکر شده را استفاده می‏­کند. تعداد نزدیکترین فاصله­‏ها (پیش فرض 1= K ) می‏­تواند به طور صریح در ویرایشگر شیء تعیف شود. پیش‏بینی­‏های متعلق به پیش از یک همسایه می‏­تواند بر اساس فاصله آنها تا نمونه­‏های آزمایشی، وزن­دار گردد.

  دو فرمول متفاوت برای تبدیل فاصله به وزن، پیاده سازی شده­اند. تعداد نمونه­های آموزشی که به وسیله رده بند نگهداری می‏­شود، می‏­تواند با تنظیم گزینه اندازه پنجره محدود گردد. زمانی که نمونه­‏های جدید اضافه می‏­شوند، نمونه­‏های قدیمی حذف شده تا تعداد کل نمونه­‏های آموزشی در اندازه تعیین شده باقی بماند.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


  Kstar ، یک روش نزدیکترین همسایه است که از تابع فاصله­ای عمومی شده بر اساس تبدیلات استفاده می‏­کند.
LWL یک الگوریتم کلی برای یادگیری وزن دار شده به صورت محلی است. این الگوریتم با استفاده از یک روش بر پایه نمونه، وزن­‏ها را نسبت می‏­دهد و از روی نمونه­‏های وزن­دار شده، رده بند را می‏­سازد. رده بند در ویرایشگر شیء LWL انتخاب می‏­شود. Nave Bayes برای مسایل رده بندی و رگرسیون خطی برای مسایل رگرسیون، انتخاب­‏های خوبی هستند. می‏­توان در این الگوریتم، تعداد همسایه­‏های مورد استفاده را که پهنای باند هسته و شکل هسته مورد استفاده برای وزن دار کردن را (خطی، معکوس، یا گوسی) مشخص می‏­کند، تعیین نمود. نرمال سازی ویژگی‏‏ها به طور پیش فرض فعال است[ Data Mining, witten et Al. 2005 ].   نرم­افزار داده کاوی Weka



:: موضوعات مرتبط: newdatamining , ,
:: بازدید از این مطلب : 348
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
تاریخ انتشار : پنج شنبه 19 مرداد 1396 | نظرات ()
نوشته شده توسط : مطلب پروژه

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

این نرم‌افزار یک ابزار داده‌کاوی متن باز است که با زبان جاوا نوشته شده‌است و از سال 2001 تا به حال، توسعه داده شده‌است. در این نرم‌افزار سعی تیم توسعه‌دهنده، بر آن بوده‌است که تا حد امکان تمامی الگوریتم‌های رایج داده‌کاوی و هم‌چنین یادگیری ماشین پوشش داده شوند. به گونه‌ای که حتی این امکان برای نرم‌افزار فراهم شده‌است تا بتوان سایر ابزار‌های متن باز داده‌کاوی را نیز به آن الحاق نمود. رابط گرافیکی شکیل و کاربر‌پسند نرم‌افزار نیز آن را یک سر و گردن بالاتر از سایر ابزار‌های رقیب قرار می‌دهد. از نقاط قوت نرم‌افزار می‌توان به موارد زیر اشاره کرد.

- ارائه گزارش و رونوشت از مراحل اجرای الگوریتم.
- ظاهر پرداخته و آراسته.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

- نمای گرافیکی خوب
- قابلیت تطابق با فایل‌های خروجی بسیاری از نرم‌افزار‌ها مانند Excel.
- امکان تصحیح و خطایابی بسیار سریع.
-وجود آموزش‌های ویدیویی مناسب که برای این نرم‌افزار تهیه شده و در وب قرار داده شده‌است.
- مستندات شامل راهنمای بسیاری از عملگر‌ها در نرم‌افزار.
- امکان اجرای هم‌زمان الگوریتم‌های یادگیری متفاوت در نرم‌افزار و مقایسه آن‌ها با یک‌دیگر در ابزار در نظر گرفته شده‌است.
امکانات ویژه در این ابزار:

 

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

- به دلیل پیاده سازی و توسعه این

نرم‌افزار با استفاده از زبان جاوا، امکان کار در سیستم‌های عامل‌ مختلف از جمله ویندوز، لینوکس و سیستم‌های مکینتاش برای این نرم‌افزار وجود دارد.

- امکانات متن‌کاوی نیز در این نرم‌افزار پیش‌بینی شده‌است.
- کلیه الگوریتم‌های یادگیری مدل در نرم‌افزار داده‌کاوی WEKA پس از به هنگام‌سازی RapidMiner به نرم‌افزار اضافه خواهند شد.
- لازم به ذکر است این نرم افزار به عنوان پرکاربردترین نرم افزار داده کاوی در سال 2014 شناخته شده است.


09367292276
09367292276
azsoftir@gmail.com



:: موضوعات مرتبط: newdatamining , ,
:: بازدید از این مطلب : 264
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
تاریخ انتشار : پنج شنبه 19 مرداد 1396 | نظرات ()
نوشته شده توسط : مطلب پروژه

در این چند سال دوستان زیادی  از گروه تقاضای راهنمایی در خصوص چگونگی آشنایی و شروع یادگیری علم داده کاوی را کرده اند. در این مقاله سعی کردیم نکاتی مهم را در خصوص این علم به شما متذکر شویم. با رعایت این نکات در عرض کمترین زمان (6 ماه الی 1 سال) می توانید به توانایی های خوبی در علم داده کاوی برسید.


1)    زبان انگلیسی را به صورت پیشرفته یاد بگیرید.

 اکثر توصیه هایی که در اینجا برای شما کرده ایم نیاز به تسلط کافی شما در زبان انگلیسی دارد. متاسفانه منابع فارسی در خصوص داده کاوی و یادگیری ماشین بسیار محدود و نا کافی هستند پس شما نیاز دارید تا به منابع مرجع متوسل شوید. برای این کار کافی است لغت شناسی خود را در محدوده داده کاوی افزایش دهید و این کار فقط با مطالعه 15 الی 20 مقاله انگلیسی قابل انجام است.


2)    همین حالا بهترین دوره آموزشی داده کاوی را پیدا کنید و در آن شرکت کنید.
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

وقت را تلف نکنید. همین حالا با یک جستجوی ساده در اینترنت می توانید در دوره های داده کاوی که در کشور برگزار می شود مانند دوره های گروه داده کاوی ایران شرکت کنید. شما می توانید در دوره های رایگان خارجی نیز شرکت کنید. به طور مثال دوره های آنلاینی که دانشگاه استنفورد برگزار می کند بی شک یکی از بهترین این دوره ها هستند که به طور رایگان برگزار می شوند. از اینجا می توانید به این سایت بروید و در دوره های آینده آن به رایگان شرکت کنید.
مطمئن هستم که شگفت زده خواهید شد اگر دو لینک زیر را ببینید. در دو لینک زیر فایل تصویری از دو دوره برگزار شده درباره داده کاوی و یادگیری ماشین در سایت coursera (تاسیس شده توسط اساتید دانشگاه استنفورد) وجود دارد شما می توانید به صورت آنلاین آموزش خود را از همین لحظه شروع کنید.
لینک تصویری دوره اول
لینک تصویری دوره دوم

3)    یکی از کتاب های مرجع داده کاوی را حتما مطالعه کنید.
کتاب های مرجع می توانند خیلی چاره ساز باشند. اگر اطلاعات خوبی در خصوص داده کاوی و یادگیری ماشین جمع آوری کرده اید حال وقت آن است که به کتب مرجع مراجعه کنید. به طور کلی مباحثی که باید بیاموزید شامل موارد زیر است. البته توجه داشته باشید که این تمامی موضوعات است و شاید نیاز نباشد برخی از آنها را به طور کامل در قدم اول یاد بگیرید.

    یادگیری ماشین
        رده بندی و پیش بینی
        رگرسیون
        سری های زمانی
        قواعد وابستگی
        خوشه بندی
        کشف قواعد متوالی
        کشف نقاط دور افتاده
    جبر خطی
    تحلیل آماری (در محدوده کاربردهای داده کاوی)
    بهینه سازی و الگوریتم های ابتکاری
    بازیابی اطلاعات و پایگاه‌داده
    الگوریتم‌ها و ساختار داده
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

لیست برخی از کتب داده کاوی مرجع که می توانند شما را بسیار کمک کنند در ادامه ذکر شده اند.

    کتاب Han و Kamber که در سایت داده کاوی ایران موجود است را می توانید از اینجا دانلود کنید.
    کتاب آقای Tan که توسط بسیاری از اساتید داخلی تدریس می گردد را می توانید از اینجا دانلود کنید.


4)    نرم افزارهای داده کاوی را یاد بگیرید.
به طور پیش فرض آشنایی با کاربری نرم افزارهای Excel و Access از مجموعه آفیس بسیار برای اجرای هر پروژه داده کاوی می‌تواند مفید باشد. از طرفی در بین نرم افزارهای مطرح دنیا در بین داده کاوان نرم افزارهای متن باز RapidMiner و Weka مورد توجه بسیار زیادی هستند پس حتما این دو نرم افزار را از لینک های زیر دانلود کرده و سپس شروع به یادگیری انها بکنید.

لینک دانلود نرم افزار Weka

لینک دانلود نرم افزار RapidMiner (پس از ثبت نام می توانید نرم افزار را دانلود نمایید)

البته برای شروع نرم افزاری مانند Clementine یا نسخه جدید آن یعنی IBM Modeller مفید است ولی فقط برای شروع کار. با کمی جستجو در اینترنت می توانید برخی منابع فارسی که دو نرم افزار RapidMiner و Weka را به صورت مقدماتی آموزش داده اند را پیدا کنید. این دو نرم افزار برای اجرای پروژه های کارشناسی، کارشناسی ارشد و دکتری می توانند مناسب ترین ها باشند.

لینک آموزش نرم افزار Weka (به زبان فارسی)
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

اگر می خواهید متخصص شوید حتما به دنبال نرم افزارهای پیشرفته تر مانند نرم افزار متن باز R و Python بروید با کمک این نرم افزارها شما می توانید هر کاری که می خواهید بر روی داده های خود انجام دهید. نرم افزار Matlab نیز به نوبه خود مزایایی دارد اما پیشنهاد می کنم دنبال آن نروید. برای اطلاع بیشتر از اینکه چرا نباید از این نرم افزار استفاده کنید مقاله چرا نرم افزار متلب (Matlab) برای داده کاوی مناسب نیست؟ را مطالعه کنید.
لینک دانلود نرم افزار R

لینک کتاب آموزش نرم افزار R به زبان فارسی (ترجمه توسط تیم آقای دکتر مهدی نصیری)

لینک دیگر کتاب آموزشی نرم افزار R دکتر سعید نودوشنی لینک اول لینک دوم

 ضمنا گروه داده کاوی ایران قصد دارد در یک دوره زمانی شش ماهه آموزش های آنلاین صوتی و تصویری را در خصوص نرم افزارهای داده کاوی آغاز نماید.

5)    در جلسات و همایش های تخصصی شرکت کنید.
در ایران نیز مانند سایر کشورها سمینارها، همایش‌ها و کنفرانس های اگرچه محدودی برگزار می گردد که می توانید در آنها شرکت کنید. اگرچه سطح علمی آنها به پای کنفرانس های معتبر بین المللی نمی رسد اما این همایش ها می توانند برای پیدا کردن افراد یا گروه هایی که مانند شما به این علم علاقه دارند، به شما کمک کند.

  فلسفه اصلی وجود کنفرانس ها آشنایی افراد متخصص با یکدیگر و همچنین بررسی نظریه های جدید در علم داده کاوی است. همانطور که با کمی جستجو خواهید فهمید که مقاله کشف دانش در پایگاه داده که سر آغاز داده کاوی است، اولین بار در یک کنفرانس توسط استاد Fayyad ارائه شده است.
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

6)    داده های آنلاین را دستکاری کنید.
یکی از کارهای بسیار مفید پس از اینکه کمی با روش های داده کاوی آشنا شدید و همچنین نرم افزارهای معروف را یادگرفتید، دستکاری داده ها است. یکی از بهترین سایت هایی که می توانید از آن داده دانلود کنید سایت دانشگاه کالیفرنیا است که مجموعه داده های زیادی در آن وجود دارد. با کمی جستجو در بین مقالات علمی معتبر منتشر شده در ژورنال های بین المللی خواهید دید که محققان بسیاری هستند که بر روی این مجموعه داده ها در حال تحقیق هستند و هر روز مقالات جدیدی را حتی بر روی داده هایی که چندین سال پیش به اشتراک گذاشته شده اند، منتشر می کنند.
لینک سایت دانشگاه کالیفرنیا
لینک لیست تمامی سایت هایی که مجموعه داده رایگان به اشتراک گذاشته اند

 
ابتدا یکی از این مقالات را که از داده های آنلاین استفاده کرده‌اند را پیدا کنید و سپس سعی کنید تمامی کارهایی که محققان بر روی این مجموعه داده انجام داده‌اند را شبیه سازی کنید و دوباره بر روی مجموعه داده ها اعمال کنید. پس از اینکه توانستید نتیجه چند مقاله را شبیه سازی کنید. در مرحله بعدی سعی کنید با آموزه های خود دقت مدل های ساخته شده در مقاله مرجع را افزایش دهید.


7)    در مسابقات آنلاین داده کاوی شرکت کنید.
یکی دیگر از فعالیت هایی که می تواند توان تحلیلی شما را افزایش دهد و آموزه های شما را بسنجد، شرکت در مسابقات آنلاین با مجموعه داده های حقیقی است. شما می توانید به صورت رایگان در مسابقات شرکت کنید، در فروم های مسابقه با سایر رقبای خود همفکری کنید، نتیجه مدلسازی خود را ثبت کنید و دقت مدل پیشنهادی خود را با سایرین مقایسه کنید. برای توضیحات بیشتر به مقاله مسابقه آنلاین داده کاوی رجوع کنید.


8)    در محیط کاری خود به دنبال داده و حل مسئله باشید.
مطمئنا شما در محیط کاری خود داده هایی را دارید پس چه بهتر که از همان آنها برای شروع به کار و آموزش استفاده کنید. این داده ها ممکن است دارای اشتباهات بسیاری باشند و یا اینکه به خوبی یکپارچه نشده باشند. در هر صورت کار بر روی این داده ها می تواند توانایی شما را در اجرای پروژه های واقعی افزایش دهد. پس داده ها را به هر ترتیبی که هست استخراج کنید و به دنبال حل مسئله ای با استفاده از آنها یا استخراج دانش مفید از آنها باشید تا خودتان را به طور جدی محک بزنید.
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


9)    با دیگران در اینترنت در ارتباط باشید.

به سایت های معتبر داخلی و خارجی سر بزنید و با اخبار و نظرات کارشناسان این حوزه آشنا شوید. یکی از سایت های معتبر خارجی سایت kdnuggets می باشد که توسط یکی از بزرگان داده کاوی یعنی آقای Gregory Piatetsky-Shapiro اداره می شود. همچنین سایت آقای دکتر مهدی نصیری نیز بسیار به روز بوده و از این سایت هم می توانید مطالب بسیار مفیدی را به زبان فارسی استخراج نمایید.
لینک سایت kdnuggets
لینک سایت داده کاوی


10)    در صورت نیاز از منابع فارسی استفاده کنید.
در نهایت می توانید از برخی منابع فارسی نیز استفاده کنید. در طی سال اخیر یعنی 1392 کتاب های نسبتا مناسبی ترجمه شده است که از تمامی این کتاب ها اکثرا ترجمه و خلاصه کتاب های مرجع و معروف گفته شده در بخش فوق می باشند. در زیر نیز یک کتاب ترجمه شده خوب در خصوص روش اجرای پروژه های داده کاوی به زبان فارسی قرار دارد.

لینک کتاب روش اجرای پروژه های داده کاوی به زبان فارسی

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com



:: موضوعات مرتبط: newdatamining , ,
:: بازدید از این مطلب : 251
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
تاریخ انتشار : پنج شنبه 19 مرداد 1396 | نظرات ()
نوشته شده توسط : مطلب پروژه

انجام پایان نامه کارشناسی ارشدWeka

مقدمه

  تا به امروز نرم افزارهای تجاری و آموزشی فراوانی برای داده کاوی در حوزه های مختلف داده ها به دنیای علم و فناوری عرضه شده اند. هریک از آنها با توجه به نوع اصلی داده هایی که مورد کاوش قرار میدهند، روی الگوریتمهای خاصی متمرکز شده اند. مقایسه دقیق و علمی این ابزارها باید از جنبه های متفاوت و متعددی مانند تنوع انواع و فرمت داده های ورودی، حجم ممکن برای پردازش داده ها، الگـوریتمهای پیاده سـازی شده، روشهای ارزیابی نتایج، روشهای مصـور سـازی، روشهای پیش پردازش داده ها، واسطهای کاربر پسند، پلت‌فرمهای سازگار برای اجرا،قیمت و در دسترس بودن نرم افزار صورت گیرد. از آن میان، نرم افزار Weka با داشتن امکانات بسیار گسترده،امکان مقایسه خروجی روشهای مختلف با هم، راهنمای خوب، واسط گرافیگی کارا، سازگاری با سایر برنامه های ویندوزی، و از همه مهمتر وجود کتابی بسیار جامع و مرتبط با آن [Data Mining, witten et Al. 2005 ] ، معرفی میشود.
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

1- معرفی نرم افزار Weka

میزکارWeka ، مجموع‌های از الگوریتمهای روز یادگیری ماشینی و ابزارهای پیش پردازش داده‌ها میباشد. این نرم‌افزار به گونه‌ای طراحی شده است که میتوان به سرعت، روشهای موجود را به صورت انعطافپذیری روی مجموعه‌های جدید داده، آزمایش نمود. این نرم‌افزار، پشتیبانی‌های ارزشمندی را برای کل فرآیند داده کاوی های تجربی فراهم میکند. این پشتیبانی‌ها، آماده سازی داده‌های ورودی، ارزیابی آماری چارچوبهای یادگیری و نمایش گرافیکی داده‌های ورودی و نتایج یادگیری را در بر میگیرند. همچنین، هماهنگ با دامنه وسیع الگوریتمهای یادگیری، این نرم‌افزار شامل ابزارهای متنوع پیش پردازش داده‌هاست. این جعبه ابزار متنوع و جامع، از طریق یک واسط متداول در دسترس است، به نحوی که کاربر میتواند روشهای متفاوت را در آن با یکدیگر مقایسه کند و روشهایی را که برای مسایل مدنظر مناسبتر هستند، تشخیص دهد.

این سیستم به زبان جاوا نوشته شده و بر اساس لیسانس عمومی و فراگیر GNU انتشار یافته است.Weka تقریباً روی هر پلت فرمی اجرا میشود و نیز تحت سیستم عاملهای لینوکس، ویندوز، و مکینتاش، و حتی روی یک منشی دیجیتالی شخصی، آزمایش شده است.

این نرم افزار، یک واسط همگون برای بسیاری از الگوریتمهای یادگیری متفاوت، فراهم کرده است که از طریق آن روشهای پیش پردازش، پس از پردازش و ارزیابی نتایج طرح های یادگیری روی همه مجموعه های داده موجود، قابل اعمال است.

نرم افزار Weka ، پیاده سازی الگوریتمهای مختلف یادگیری را فراهم میکند و به آسانی میتوان آنها را به مجموعه های داده خود اعمال کرد.

  همچنین، این نرم افزار شامل مجموعه متنوعی از ابزارهای تبدیل مجموعه‌های داده ها، همانند الگوریتمهای گسسته سازی میباشد. در این محیط میتوان یک مجموعه داده را پیش پردازش کرد، آن را به یک طرح یادگیری وارد نمود، و دسته‌بندی حاصله و کارآیی‌اش را مورد تحلیل قرار داد.( همه این کارها، بدون نیاز به نوشتن هیچ قطعه برنامه‌ای میسر است.)

  این محیط، شامل روشهایی برای همه مسایل استاندارد داده کاوی مانند رگرسیون، رده‌بندی، خوشه‌بندی، کاوش قواعد انجمنی و انتخاب ویژگی میباشد. با در نظر گرفتن اینکه، داده‌ها بخش مکمل کار هستند، بسیاری از ابزارهای پیش پردازش داده‌ها و مصورسازی آنها فراهم گشته است. همه الگوریتم ها، ورودیهای خود را به صورت یک جدول رابطهای به فرمت ARFF دریافت میکنند. این فرمت داده‌ها، میتواند از یک فایل خوانده شده یا به وسیله یک درخواست از پایگاه دادهای تولید گردد.

یکی از راههای به کارگیری Weka ، اعمال یک روش یادگیری به یک مجموعه داده و تحلیل خروجی آن برای شناخت چیزهای بیشتری راجع به آن اطلاعات میباشد. راه دیگر استفاده از مدل یادگیری شده برای تولید پیشبینی‌هایی در مورد نمونه‌های جدید است. سومین راه، اعمال یادگیرنده‌های مختلف و مقایسه کارآیی آنها به منظور انتخاب یکی از آنها برای تخمین میباشد. روشهای یادگیری Classifier نامیده میشوند و در واسط تعاملی Weka ، میتوان هر یک از آنها را از منو انتخاب نمود. بسیاری از classifier ها پارامترهای قابل تنظیم دارند که میتوان از طریق صفحه ویژگی‌ها یا object editor به آنها دسترسی داشت. یک واحد ارزیابی مشترک، برای اندازه‌گیری کارآیی همه classifier به کار میرود.

پیاده سازیهای چارچوبهای یادگیری واقعی، منابع بسیار ارزشمندی هستند که Weka فراهم می کند. ابزارهایی که برای پیش پردازش داده‌ها استفاده میشوند Filter نامیده میشوند. همانند classifier ها، میتوان filter ها را از منوی مربوطه انتخاب کرده و آنها را با نیازمندیهای خود، سازگار نمود. در ادامه، به روش به کارگیری فیلترها اشاره میشود.

  علاوه بر موارد فوق، Weka شامل پیاده سازی الگوریتمهایی برای یادگیری قواعد انجمنی، خوشه‌بندی داده‌ها در جایی که هیچ دست‌های تعریف نشده است، و انتخاب ویژگیهای مرتبط در داده‌ها میباشد.
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

2- روش استفاده از Weka

جهت درک بهتر مطالب این بخش، یک پایگاه داده با فرمت (comma-separated format ) .csv به نام bank-data.csv به عنوان مثال در نظر گرفته میشود. این بانک اطلاعاتی شامل اطلاعاتی در مورد 600 فرد مختلف است که فیلدهای تشکیل دهنده آن به شرح زیر هستند:

09367292276
09367292276
azsoftir@gmail.com



:: موضوعات مرتبط: newdatamining , ,
:: بازدید از این مطلب : 264
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
تاریخ انتشار : پنج شنبه 19 مرداد 1396 | نظرات ()
نوشته شده توسط : مطلب پروژه

انجام پروژه های داده کاوی با نرم افزار weka

آموزش نرم افزار کلمنتاین Clementine
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

آموزش نرم افزار IBM SPSS Modeler

انجام پروژه های داده کاوی با نرم افزارClementine

انجام پروژه های داده کاوی با نرم افزار  IBM SPSS Modeler

        فرآیند داده کاوی CRISP-DM
        آشنایی با قابلیت های SPSS Modeler
        فرآیند داده کاوی در SPSS Modeler
    شناسایی و آماده سازی مقدماتی داده ها
        فراخوانی داده ها در محیط SPSS Modeler
        بررسی مفاهیم Storage و Type و اهمیت آنها
        یکپارچه سازی داده ها (Merge and Append)

        بررسی شاخص های کیفی داده ها (Data Audit)

 

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

        مطالعه توصیفی و استنباطی داده ها در SPSS Modeler
    مدل های پیش بینی کننده
        طبقه بندی با انواع درخت های تصمیم در SPSS Modeler
        استفاده از درخت های رگرسیونی به منظور پیش بینی
        ساخت مدل های پیش بینی کننده با شبکه های عصبی مصنوعی
        ارزیابی مقدماتی مدلهای پیش بینی کننده

انجام پروژه های داده کاوی با نرم افزار RapidMiner

انجام پروژه های داده کاوی با نرم افزار weka
مشاوره در زمینه پروژه های داده کاوی
انجام پروژه های داده کاوی با نرم افزار weka RapidMiner

مشاوره در زمینه پروژه های داده کاوی

در مقاطع کارشناسی و کارشناسی ارشد
با نرم افزار Weka- Clementine

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com



:: موضوعات مرتبط: newdatamining , ,
:: بازدید از این مطلب : 229
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
تاریخ انتشار : پنج شنبه 19 مرداد 1396 | نظرات ()
نوشته شده توسط : مطلب پروژه

امروزه در اکثر سازمان ها، داده‌ها به سرعت در حال جمع آوری و ذخیره شدن هستند به طوری که شرکت ها در اﻃﻼﻋﺎت ﻏﺮق ﺷﺪه اﻧﺪ در ﺣﺎﻟﯿﮑﻪ ﺗﺸﻨﻪ داﻧﺶ ﻫﺴﺘﻨﺪ، اما استفاده از این داده ها در اغلب موارد کار راحتی نیست و نمی توان به صورت یکپارچه از این حجم داده ها استفاده نمود، از این رو با استفاده از ترکیب علم آمار و کامپیوتر و بکارگیری تکنیک های یادگیری ماشین، می توان از این داده ها به بهترین نحو از این داده ها استفاده کرد. در واقع داده کاوی عبارت است از:

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

"استخراج اطلاعات و دانش و کشف الگوهای پنهان مفید برای سازمان از مجموعه داده‌های بزرگ"

گروه ما با استفاده از تجارب فنی و دانش متخصصین خود آماده ارائه خدمات داده کاوی برای هوشمند سازی تجارت شما به بهترین شکل انجام می دهد.

داده‌کاوی به معنای کشف دانش درون داده‌هاست! کشف دانش درون داده‌ها آنهم در عصر اطلاعات یکی از هیجان‌انگیزترین و کلیدی‌ترین مفاهیمی است که روز به روز اهمیت بیشتری می‌گیرد. داده‌کاوی به بررسی و تجزیه و تحلیل مقادیر عظیمی از داده‌ها به منظور کشف الگوها و قوانین معنی‌دار گفته می‌شود.
چه موقع و کجا داده‌کاوی نیاز است؟

طیف وسیعی از رشته های دانشگاهی از مهندسی تا پزشکی و علوم انسانی، برای حل مسائل و استخراج نتایج تحقیقات خود به تکنیک های داده کاوی نیاز دارند.
در سال های اخیر و با توجه به گسترش علم داده کاوی، پروژه های متعددی در دانشگاه ها و در مقاطع کارشناسی ارشد و دکترا از تکنیک های داده کاوی بهره می برند و یا بصورت تخصصی بر روی تکنیک های داده کاوی تحقیق می کنند.
گروه داده کاوی توسعه اندیشه نوین با توجه به تجربه و دانش چند ساله ی خود در مشاوره و اجرای پروژه های داده کاوی، هم اکنون آماده اجرای پروژه های داده کاوی در سازمان ها و شرکت ها است.
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

    مسئله ای پیچیده و ناساخت یافته و یا نیمه ساخت یافته
    داده‌های مرتبط وجود داشته باشند و به آنها دسترسی داشت.
    داده ها در یکجا مجتمع شده و انباره داده ها ایجاد شود.
    توانایی کامپیوترها امکان استفاده از نرم افزارهای مرتبط با داده کاوی را به ما بدهند.
    مدیران نیاز به استفاده از دانش استخراج شده از داده ها را حس کرده باشند.

در واقع هـــــدف از داده کاوی ایجاد مدل هایی برای تصمیم گیری است تا هوش تجاری سازمان را افزایش دهد و بقای و سود سازمان در ارتباط با مشتریان بلقوه بیشتری افزایش یابد.

    حجم داده‌ها (Data) با سرعت زیادی در حال رشد است.
    اطلاعات (Information) ما در مورد این داده‌ها کم است.
    دانش (Knowledge) ما نسبت به این اطلاعات صفر است.

 
مقایسه علم آمار با داده کاوی

آمار شاخه ای از علم ریاضی است که به جمع آوری توضیح و تفسیر داده ها می پردازد. این مبحث به گونه ای است که روزانه کاربرد زیادی دارد. در مقایسه این علم با data mining قدمت بیشتری دارد و جزء روشهای کلاسیک داده کاوی محسوب می شود.
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

وجه اشتراک تکنیکهای آماری و data mining بیشتر در تخمین و پیش بینی است. البته از آزمون های آماری در ارزیابی نتایج داده کاوی نیزاستفاده می شود. در کل اگر تخمین و پیش بینی جزء وظایف data mining در نظر گرفته شوند، تحلیل های آماری، data mining را بیش از یک قرن اجرا کرده است. به عقیده بعضی DM ابتدا از آمار و تحلیل های آماری تحلیل شروع شد.

می توان تحلیل های آماری از قبیل فاصله اطمینان، رگرسیون و... را مقدمه و پیش زمینه DM دانست که بتدریج در زمینه های دیگر و متدهای دیگر رشد و توسعه پیدا کرد. پس در واقع متدهای آماری جزء روشهای کلاسیک و قدیمی DM محسوب می شوند. در جایی اینگونه بحث می شود که با تعریف دقیق ، آمار یا تکنیک های آماری جزء داده کاوی (data mining) نیستند.

این روش ها خیلی قبل تر از data mining استفاده می شدند. با این وجود، تکنیک های آماری توسط داده ها بکار برده می شوند و برای کشف موضوعات و ساختن مدل های پیشگویانه مورد استفاده قرار می گیرند.

 
داده­ کاوی چگونه کار می­ کند؟

هنگامی که فناوری اطلاعات در سطح وسیع، سیستم ­های تحلیلی و تراکنشی را جداگانه دگرگون می­ کند، داده کاوی ارتباط بین این ­دو را فراهم می ­آورد. نرم ­افزار داده­ کاوی، ارتباطات و الگوهای موجود در داده­ های تراکنشی ذخیره شده بر اساس درخواست ­های کاربر Open-ended را تحلیل می­ کند. انواع مختلف نرم ­افزارهای تحلیلی موجود هستند: آماری، یادگیری ماشینی، و شبکه ­های عصبی. در کل، به دنبال هر 4 نوع از روابط می­ گردیم:

کلاس ها: داده­ های ذخیره شده برای پیدا کردن داده در گروه ­های از پیش تعیین شده به کار می ­روند. برای مثال، یک رستوران زنجیره ­ای، می ­تواند داده­ های خرید مشتریان را به منظور تعیین زمان دیدار مشتریان از مغازه و آنچه که سفارش می ­دهند، بکاود. این اطلاعات، می ­تواند برای افزایش تعداد مشتریان توسط افزودن "ویژه های روزانه" به کار رود.
خوشه ­ها: داده ­ها بر اساس روابط منطقی بین آن­ها یا ترجیحات مشتری گروه ­بندی می ­شوند. برای مثال، داده­ ها می ­توانند برای شناسایی بخش ­های بازار و یا اشتراکات قوی مشتریان، داده کاوی شوند.
وابستگی ­ها: داده­ کاوی به منظور شناسایی وابستگی­ ها انجام می ­شود. آبجو-پوشک، مثالی از این نوع داده­ کاوی است.
الگوهای زنجیره ­ای: داده­ کاوی به منظور پیش ­بینی الگوهای رفتاری و روندها صورت می­ گیرد. برای مثال، یک فروشنده، می ­تواند احتمال خرید کوله ­پشتی را بر اساس خرید مشتریان از کیسه­ های خواب و کفش­ های کوهنوردی پیش ­بینی کند.
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

 
خدمات ما

با توجه به بررسی ها و پس از آن که چارچوب پروژه داده کاوی تدوین شد،در پروژه وجود موارد زیر به صراحت مشخص می شود.

    دلیل استفاده از تکنیک های داده کاوی و آماری مربوطه
    برنامه اولیه برای بهبود با توجه به نتایج تجزیه و تحلیل
    نتایج مشخص از داده ها به صورتی که تدوین برنامه های راهبردی بعدی از نتایج امکان پذیر باشد
    خدمات داده کاوی و بررسی تجزیه و تحلیل داده های
    انجام پروژه و پایانامه های داده کاوی و تجزیه تحلیل داده ها
    انجام پروژه های داده کاوی با نرم افزارهای  R , Rapidminer  weka, SPSS    (رپیدماینر ، وکا و .... )


09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

کاربردهای داده کاوی

کاربردهایی که برای داده کاوی وجود دارند، بسیار بسیار گسترده اند و ما در این نوشتار، فقط امکان معرفی تعداد محدودی از آن ها را داریم. به عنوان مثال های بیشتر، می توان به کاربردهای داده کاوی در زمینه های زیر اشاره کرد:

        سیستم های مدیریتی، مثلا مدیریت ارتباط با مشتریان یا CRM
        نرم افزارهای امنیتی، مثلا نرم افزاری مانیتورینگ شبکه و ویروس کش ها
        سیستم های بانکی، مثلا تخصیص اعتبار به مشتریان و طبقه بندی آن ها
        مالی و اقتصادی، مثلا پیش بینی قیمت یک یا چند سهام یا شاخص
        برنامه ریزی و مکان یابی، مثلا چینش داخلی فروشگاه های بزرگ و یا تخصیص امکانات شهری
        علوم پزشکی، مثلا پیش بینی خطرات احتمالی ناشی از یک عمل جراحی خاص
        علوم اجتماعی و سیاسی، مثلا پیش بینی یا تحلیل نتایج انتخابات
09367292276
09367292276
azsoftir@gmail.com



:: موضوعات مرتبط: newdatamining , ,
:: بازدید از این مطلب : 466
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
تاریخ انتشار : پنج شنبه 19 مرداد 1396 | نظرات ()