Hadoop Nedir?

Hadoop, kümelenmiş sistemlerde çalışan büyük veri uygulamaları için veri işlemeyi ve depolamayı yöneten açık kaynaklı bir dağıtım çerçevesidir. Tahmini analitik, veri madenciliği ve makine öğrenimi uygulamaları da dahil olmak üzere, öncelikle gelişmiş analitik girişimleri desteklemek için kullanılan, büyüyen büyük veri teknolojileri ekosisteminin merkezinde yer almaktadır. Hadoop, çeşitli yapılandırılmış ve yapılandırılmamış veri biçimlerini kullanabilir ve kullanıcılara ilişkisel veritabanlarının ve veri ambarlarının sağladığından daha fazla veri toplama, işleme ve analiz etme esnekliği sunar.

 

Hadoop öncelikli olarak analitik kullanımlarına yöneliktir ve farklı türdeki verileri işleme ve saklama yeteneği onu büyük veri analitiği uygulamaları için özellikle uygun hale getirir. Büyük veri ortamları tipik olarak yalnızca büyük miktarda veriyi değil, aynı zamanda yapılandırılmış işlem verilerinden, internet tıklama kayıtları, web sunucusu ve mobil uygulama günlükleri, sosyal medya yayınları, müşteri e-postaları ve algılayıcı gibi yapılandırılmış ve yapılandırılmamış bilgi formlarına kadar çeşitli türleri içerir.

 

 

Resmen Apache Hadoop olarak bilinen teknoloji, Apache Software Foundation (ASF) içindeki açık kaynaklı bir projenin parçası olarak geliştirilmiştir. Hadoop’un ticari dağıtımları şu anda dört ana büyük veri platformu satıcısı tarafından sunulmaktadır: Amazon İnternet Servisleri (AWS), Cloudera, Hortonworks ve MapR Technologies. Ek olarak, Google, Microsoft ve diğer satıcılar, Hadoop ve ilgili teknolojiler üzerine kurulu bulut tabanlı yönetilen hizmetler sunar.

Hadoop ve büyük veri

 

Hadoop, emtia sunucu kümeleri üzerinde çalışır ve binlerce donanım düğümünü ve büyük miktardaki veriyi desteklemek için ölçeklenebilir. Bir kümedeki düğümler arasında hızlı veri erişimi sağlamak üzere tasarlanmış bir adaşa dağıtılmış dosya sistemi kullanır, ayrıca hataya dayanıklı özellikler sayesinde, bireysel düğümler başarısız olursa uygulamaların çalışmaya devam edebilmesini sağlar. Sonuç olarak, Hadoop 2000’li yılların ortalarında ortaya çıktıktan sonra büyük veri analitiği için temel bir veri yönetimi platformu haline geldi.

 

 

Hadoop bilgisayar mühendisleri Doug Cutting ve Mike Cafarella tarafından, başlangıçta Nutch açık kaynaklı arama motorunda ve web tarayıcısında işlemeyi desteklemek için yaratıldı. Google, 2003 ve 2004 yıllarında Google Dosya Sistemini (GFS) ve MapReduce programlama çerçevesini ayrıntılandıran teknik makaleler yayınladıktan sonra, Cutting ve Cafarella, önceki teknoloji planlarını değiştirdi ve Java tabanlı bir MapReduce uygulamasını ve Google’da modellenmiş bir dosya sistemi geliştirdi.

 

 

2006 yılının başlarında, bu unsurlar Nutch’dan ayrıldı ve Cutting adlı oğlunun filinin ardından Hadoop adlı bir Apache alt projesi oldu. Aynı zamanda, Cutting, 2006’da Hadoop’un ilk prodüksiyon kullanıcısı olan internet hizmetleri şirketi Yahoo tarafından işe alındı. (Daha sonra yüksek lisans öğrencisi olan Cafarella, üniversite profesörü oldu.)

 

 

Hadoop’un Bileşenleri

 

Hadoop‘un ilk yinelemesindeki ana bileşenler, bir dizi ortak yardımcı program ve kitaplık olan MapReduce, Hadoop Dağıtılmış Dosya Sistemi (HDFS) ve Hadoop Common idi. Adından da anlaşılacağı gibi, MapReduce, işleme işlerini, verilerin depolandığı küme düğümlerinde çalışan birden fazla göreve bölmek ve ardından görevlerin tutarlı bir sonuç kümesinde ürettiğini birleştirmek için harita ve azaltma işlevlerini kullanır. MapReduce başlangıçta hem Hadoop’un işlem motoru hem de HDFS‘yi doğrudan ona bağlayan küme kaynak yöneticisi olarak görev yaptı ve kullanıcıları MapReduce toplu iş uygulamalarını çalıştırmaya sınırladı.

 

 

Bu, 2.2.0 sürümünün piyasaya sürüldüğü Ekim 2013’te genel kullanıma sunulan Hadoop 2.0’da değişti. Yeni bir küme kaynak yönetimi ve bu işlevleri MapReduce’tan alan iş planlama teknolojisi Apache Hadoop YARN’ı tanıttı. YARN – Yine Başka Bir Kaynak Müzakerecisi için kısa ancak tipik olarak yalnızca kısaltmasıyla anılan – MapReduce’a sıkı sıkıya bağlı kalmayı bıraktı ve Hadoop’u diğer işleme motorlarına ve toplu işlerin yanı sıra çeşitli uygulamalara açtı.

 

 

Hadoop 2.0 sürümleri, HDFS için yüksek kullanılabilirlik (HA) ve federasyon özellikleri, Microsoft Windows sunucularında Hadoop kümelerini çalıştırma desteği ve dağıtılmış işlem çerçevesinin büyük veri yönetimi ve analitik için çok yönlülüğünü genişletmek için tasarlanan diğer özellikleri de ekledi.

 

 

Hadoop 3.0.0, Hadoop’un bir sonraki ana sürümüydü. Apache tarafından Aralık 2017’de piyasaya sürülen Hadoop’un çekirdek bileşen kümesini genişletmedi. Ancak, YARN’ın önceki bir 10.000 düğüm sınırından daha yüksek bir seviyeye kadar tek bir kümede on binlerce düğümü veya daha fazlasını desteklemesini sağlamak için tasarlanmış bir YARN Federasyonu özelliği ekledi. Yeni sürüm ayrıca, önemli ölçüde daha az depolama alanı gerektiren veri çoğaltmasına alternatif olan GPU’lar ve silme kodlaması için destek içeriyordu.