Машин Learning

Алгоритм спам фильтра

Сегодня расскажу об одном из базовых машин лёрнинг алгоритмов — алгоритм спам фильтра. Сам алгоритм может быть реализован разными способами, поэтому сегодня рассмотрим основную идею. Более полную реализацию кода опишу в следующих статьях, поэтому подпишить на мой телеграм канал, чтобы быть в курсе новых статей. Все коды и ноутбуки доступны в моём гите (о jupyter notebooks и git я уже рассказывала).

Получить код страницы за 5 минут

Первым этапом в работе с данными является их сбор. Самыми легко доступными и дешёвыми источниками информации являются сайты / веб-странички во всемирной паутине. Поэтому именно этот тип информации является основой многих стартапов.

Юпитер ноутбук, или как начать карьеру аналитика данных

В последнее время позиции Business Analytic, Data Analytic и Data Science крайне популярны. Каждый второй блогер на ютюбе рекламирует курсы по анализу данных как возможность перепрофилироваться и начать работу в сфере IT. В принципе я согласна с тем, что порог вхождения в эту среду достаточно низкий. По моему скромному мнению, человек, способный делать логические выводы и владеющий хотя бы на базовом уровне каким-либо языком программирования, способен найти работу в сфере анализа данных.

Карта интернета

Совсем недавно я задумалась вот над какой вещью. Когда мы совершаем покупки в интернет-магазинах, читаем новости на разных сайтах или просто ищем решение какой-либо проблемы в интернете, наши перемещения по сайтам далеко не хаотичны. В этих перемещениях есть логика. Так вот, я решила проверить, возможно ли составить карту интерната. То есть такую карту, из которой будет понятно как разные сайты связаны между собой.

О манипуляциях с помощью статистики и сексизме

Сексизм часто становится темой вечера и причиной жарких споров в небольшом круге моих друзей. Я вовсе не отношусь к тем людям, которые утверждают, что это надуманная проблема. Но и не особо доверяю статьям с бесконечным числом статистических данных, из которых следует, что сексизм всюду. Сегодня, речь пойдёт о парадоксе Симпсона и манипуляции данными.

Формула идеального веса

Думаю, что каждый из нас хоть раз в жизни натыкался на формулу идеального веса. Знаете, такие формулы, когда подставляешь свой рост и вычисляешь какой вес тебе следовало бы иметь. Например, вес по формуле «мечта Лоренца» вычисляется следующим образом: РОСТ — 100 — (РОСТ — 150)/2. Подставляете свой рост в сантиметрах и готово. А задумывались ли вы, откуда эти формулы берутся и насколько близко к сердцу стоит принимать то, что ваш вес не совсем соответсвует идеальному? 🙂

СРЕДНЕЕ vs МЕДИАНА

Не знаю как вы, но я люблю инфографики и статистические данные. С помощью них человек может получить максимальное количество информации за минимальное время. Главное — понимать, что за понятия здесь используются. Например, достаточно часто в статистике используется «среднее значение»: средняя зарплата, средняя продолжительность жизни, средний уровень интеллекта 🙂 и т.д. Сегодня мы посмотрим на сколько обманчивым может быть описание данных с помощью среднего.

Предприниматели и Гаусс

Сегодня речь пойдёт о анализе данных. В этом разделе первым делом я хочу вас познакомить с распределением Гаусса (также известным как нормальное распределение). Не поверите как много происходящего вокруг нас может быть описано этим законом.